Elon Musk 的生成式 AI 初创公司 xAI 最近在加速推进其 AI 聊天机器人 Grok 的开发。为了实现这个目标,xAI 正在田纳西州孟菲斯建设一台超级计算机,计划使用多达 10 万块 Nvidia H100 GPU。这个计算资源将提升 Grok 的训练和运行能力,预计在本月末开始投入训练。
xAI 最近与 Oracle 之间的一项价值 100 亿美元的服务器协议谈判破裂。Oracle 无法满足 xAI 在速度和电力供应上的要求,Musk 于是决定自建超级计算机系统,以确保项目按计划推进。xAI 仍然从 Oracle 租用了 24,000 块 H100 芯片用于 Grok 2 的训练。
Grok 2 模型的训练使用了 20,000 个 Nvidia H100 GPU,目前正在进行微调和错误修复,预计将在下个月发布。相比之下,Grok 3 的训练需求更为庞大,预计需要 100,000 个 Nvidia H100 GPU,训练成本估计在 30-40 亿美元之间,预计将在年底前发布。
Nvidia H100 GPU,又称 Hopper,是目前一种图形处理单元。在处理大型 AI 模型时,H100 GPU 提升了计算效率和模型性能。它的设计适合大规模并行计算,具备计算能力和内存管理,因此成为训练大语言模型(LLM)等任务的选择。
每个 Nvidia H100 GPU 的成本大概在 30,000 到 40,000 美元之间。对于像 xAI 这样的大型 AI 项目,获取大量的 H100 GPU 需要资金投入。xAI 可能通过直接购买这些 GPU 或者从云服务提供商处租用计算资源来满足需求。
xAI 计划在未来几个月内部署一个由 100,000 个 H100 GPU 组成的液冷训练集群。此外,xAI 还计划在明年夏天部署另一个由 300,000 个 GPU 组成的 B200 集群,以扩展计算能力和训练效率。
xAI 的扩展计划面临电力供应问题和训练成本与资源获取问题。如此大规模的 GPU 集群需要稳定且充足的电力供应,这对基础设施提出了要求。除了 GPU 采购成本外,xAI 还需要解决如何利用这些资源,以确保训练过程顺利进行。
Nvidia H100 GPU 的引入和大规模部署将为 xAI 带来计算能力,但同时也需要克服电力供应和成本管理等实际问题。