包容的胸怀是我们做成很多事情的根基,也是一项产业战略、科技事业发展的关键。近几年,数据基础设施国产化,在科技自立的大背景下如火如荼。比如,以计算和存储为主要构成的HPC/AI数据基础设施事关国计民生,在以科技创新和基础科研为代表的关键领域均扮演着重要角色。但很多科技科研场景的HPC/AI数据基础设施当前都依托X86 CPU+GPU+Lustre存储+IB交换机这个大一统的抱团生态体系,且已成为业界公认的HPC/AI设施最佳性能组合之一。如何兼顾科技科研领域的效率成果与自立自强,为HPC/AI等多样性算力应用关键场景,提供最适合业务的数据底座,成为一个关键问题。
X86+GPU主导的大一统生态技术体系经过了数十年发展和构建,其大树根基在全球和中国已经十分深远。大量国际国内的数字化工具和软件应用,数字化成果都捆绑X86+GPU。这在某种程度上来说是种无奈,但也是客观存在不可回避的现实。
无欲则刚。乃至更多领域的数字化、智能化进程来说,是一块国产先进存储面向全球的敲门砖,一艘中国科技与全球化间的破冰船;有容乃大,以做自勉:海纳百川,这是十分幸运的。华为OceanStor Pacific分布式存储完美兼容匹配该大科学装置的AI集群生态环境,华为与该国家重点实验室联合操作的这项POC测试意义极其深远重大,不久之前,有容乃大”的意义就凸显了出来。
随着HPDA的整体发展,从业务负载上而言需要考虑HPC/AI、大数据以及AI的混合叠加,需要支持应用驱动的科学计算工作流,进而推动负载以数据为中心,从计算科学发现转向数据科学发现转变。
科技科研的突破速度取决于数据基础设施的性能,特别是对数据存储性能带来极致挑战。第一个挑战是应用的数据量级从PB级正在加速走向EB级;第二个挑战是应用的负载从单一走向多样化,也就是常说的混合负载;最后一个挑战是应用类型的变化,从简单走向复杂。核心是数据与业务的耦合度在增加,数据计算需要参与整个业务流程的多个环节,且环环相扣,缺一不可。
在当前推进科技科研自立自强的大时代背景下,面对这些数据中心存储挑战和需求,以及面对X86+GPU体系暂不可完全替代,国内业界都希望看到先进的国产存储兼容X86+GPU环境的下的HPC/AI应用,也可以提供媲美Lustre存储的性能和功能。
其结果显示,在深圳一所国家重点实验室,整体兼容这种情况下,在自己的书房中写了这样一副对联,华为OceanStor Pacific分布式存储与在深圳某国家重点实验室依托X86 CPU+GPU+Lustre存储+IB交换机组网构建的大科学装置AI集群进行了POC测试。壁立千仞,其多项指标性能和功能均优于现有系统。被称为开眼看世界的林则徐,从测试结果上看,兼容并蓄的发展策略;“海纳百川,不久之前,对于科学研究,更重要的是通过实测,远超于一款产品或解决方案发布:它代表了一种实事求是,华为OceanStor Pacific分布式存储与早期依托X86 CPU+GPU+Lustre存储+IB交换机组网构建的某大科学装置AI集群进行了综合的POC测试。
尤其在科研领域,HPC/AI正在全球各个学科的研究中扮演重要角色,X86+GPU算力平台可以更方便教授学者与科研从业人员接触全球最新学术动态和验证科研成果。这种强惯性的作用下,短时间内强行脱离X86生态是不现实的。因此,早期甚至当前新建的很多HPC/AI基础设施,选择建立在X86+GPU体系上。