2021年世界互联网领先科技成果盘点之阿里云盘古:面向数字经济基础设施的大规模分布式存储系统

2021-10-21
来源:世界互联网大会
分享

  计算、存储和网络是云计算的三大核心组件。盘古分布式存储系统作为阿里云飞天云操作系统(Apsara)的存储内核,经过十多年自主研发的技术打磨和演进,具备 EB 级存储量和万亿文件的弹性扩展能力,提供极高的稳定性和可用性,支持多种负载和应用的灵活性。

  成果名称:阿里云盘古:面向数字经济基础设施的大规模分布式存储系统

  成果发布单位:阿里云计算有限公司

  通过众多业务场景的落地和锤炼,盘古成为业界极少数的云计算统一存储平台,是阿里云的核心竞争力。盘古是面向云计算场景设计的大规模分布式存储系统,主要包括“分布式存储软件”、“高性能存储网络”、“云存储硬件架构”、“软硬融合的闪存存储架构”、“智能运维管控”以及“网络和 SSD 控制部件”等核心关键技术。盘古采用软件定义存储的设计思路,在通用服务器硬件的基础之上构建大规模分布式存储系统。并且根据云计算发展需求,盘古重新定义软件和硬件之间的边界,发展了数据中心SSD技术规范,设计了高速网络协议,实现了软硬一体全栈融合,打造了业界独特的云计算统一存储平台,满足高吞吐、低延迟等各类业务的需求。

  其主要技术方案包括:

  1. 超大规模分布式存储软件

  软件算法是盘古分布式存储的灵魂。通过分布式技术将通用存储服务器硬件打造成大规模、稳定可靠的存储系统,单集群规模超过十万台,数据可靠性高达 12 个 9。创新的纠删码技术不断降低存储的成本,同时保障数据可靠性。

  2. 极低延迟高性能存储网络

  网络互连是分布式存储的基础,稳定、可预期的高性能网络是盘古的基石。盘古自研了网络协议和硬件,减少 CPU 处理开销并提供智能路径选择和快速恢复能力,开启了微秒级低时延的云存储时代。

  3. 深度软硬融合的闪存存储架构

  为挖掘 NAND Flash 存储介质的性能和提高服务质量,盘古在演进闪存存储架构同时,与业内厂商共同提出 NVMe ZNS 国际技术标准(NVMe2.0),是目前云计算业内先进的软硬一体深度融合分布式存储系统。

  4. 智能化的管理和自动化的运维

  智能化系统管理和自动化运维是大规模分布式存储的核心,盘古借助人工智能技术实现了运维自动化,故障的智能分析和自动化诊断与处理,保证了超大规模下的稳定性和简易管理。

  盘古作为统一的存储底座,在阿里巴巴得到了规模化应用,支持了所有的数据存储业务,包括阿里巴巴集团的所有电商核心交易系统、蚂蚁集团关键业务、阿里云各类存储产品以及阿里云MaxCompute等大数据分析产品。盘古的高性能ESSD 云盘具有极低的 IO 访问延迟和百万级别的 IOPS,引领了云存储向微秒存储时代演进。基于盘古的 OSS 对象存储具有 12 个 9的可靠性和海量存储能力。盘古支撑的阿里云自研的大数据计算平台MaxCompute,具备 EB 级的大数据存储和处理能力,创造了多项世界纪录。数年来,阿里云成长为亚太市场第一,世界第三的云服务提供商,服务数百万企业用户,帮助客户进行数字化转型。阿里云的目标是成为数字经济基础设施,盘古不断进行技术创新,为数字经济基础设施提供大规模分布式的存储底座。

  来源 | 世界互联网大会官网 央视财经