据微软 Azure 云业务的高管透露,爆火的 OpenAI 聊天机器人 ChatGPT 正是由这个 AI 超级计算机提供支持。当前微软正在打造更大、更复杂的超级计算机,为新模型训练和运行提供支持。
训练大型 AI 模型需要在一个地方连接大量连接的 GPU,就像微软组装的 AI 超级计算机一样。
在 AI 超级计算机的支撑下,微软一方面可以通过 Azure 服务直接为客户提供训练模型所需的资源,也可以通过 Azure OpenAI 服务让更广泛的客户用到大规模生成式 AI 模型的能力。也就是说,中小型公司可以通过获取云服务来解决算力资源不足的问题,不需要进行大量物理硬件或软件投资。
微软在 2019 年向 OpenAI 投资 10 亿美元时,同意为 OpenAI 建造一台大型顶尖超级计算机。当时,微软并不确定在其 Azure 云服务中构建这么大的东西,会不会对 Azure 本身造成影响。
值得注意的是,AI 超级计算机虽然是专为 OpenAI 打造的,但微软并没有把它设计成只能供一家企业使用的定制化设施。
这些处理器共有数十万个,分布在其 60 多个数据中心区域。除此之外,微软还部署了用于推理的 GPU,
现在,微软使用它为 OpenAI 构建的同一组资源来训练和运行自己的大型 AI 模型,包括上个月发布的新版 Bing 搜索机器人。
芯东西 3 月 14 日消息,为了向人工智能(AI)初创公司 OpenAI 的前沿研究提供支持,微软三年前为 OpenAI 打造了一台由数万个 A100 GPU 组成的大型 AI 超级计算机,成本或超过数亿美元。微软还在 60 多个数据中心总共部署了几十万个推理 GPU。
我们并没有将它们构建成定制的东西——它最初是作为定制的东西,但我们总是以一种通用化的方式来构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进。Guthrie 在接受采访时说, 这确实帮助我们成为更广泛的 AI 云。
负责云计算和人工智能的微软执行副总裁 Scott Guthrie 不愿透露该项目的具体成本,但表示 可能大于数亿美元。
微软还将系统出售给其他客户,并已经在开发下一代 AI 超级计算机,这是它与 OpenAI 扩大交易、追加数十亿美元投资的一部分。
OpenAI 试图训练更多需要学习海量数据、拥有超大参数规模的 AI 模型,需要长期访问强大的云计算服务。为了应对这一挑战,微软必须想方设法将数万个 NVIDIA A100 GPU 串在一起,并改变其在机架上放置服务器的方式,以防止断电。
微软对 AI 基础设施的芯片及前沿技术布局,对于应对大模型与生成式 AI 应用热潮、为更大规模的模型训练与部署提供算力支撑颇具参考价值。
据微软 Azure AI 基础设施总经理 Nidhi Chappell 介绍,微软构建了一个可在非常大的范围内运行且可靠的系统架构,这就是让 ChatGPT 成为可能的原因。OpenAI 总裁兼联合创始人说,与 Azure 共同设计超级计算机对于扩展苛刻的 AI 训练需求至关重要,使得 OpenAI 能在 ChatGPT 等系统上开展研究和调整工作。
算力是一场持久仗。新版 Bing 仍处于预览阶段,微软逐渐从候补名单中添加更多用户。Guthrie 的团队每天与大约 20 名随时