Photo by GPT-4o
在当今这个数据驱动的时代,人工智能已经成为推动科技进步的关键力量。然而,随着模型复杂度的增加,对计算资源的需求也在不断攀升。最近,SemiAnalysis 的一篇新文章引起了业界的广泛关注。这篇文章详细分析了构建拥有超过 10 万个 GPU 的 AI 训练集群所面临的挑战,包括电力需求、网络拓扑设计、以及硬件的可靠性和维护问题。
文章指出,尽管自 GPT-4 发布以来,人工智能的能力似乎停滞不前,但这主要是因为没有大规模增加专用于单个模型的计算量。各大 AI 实验室,如 OpenAI/微软、xAI 和 Meta,正在竞相构建更大规模的 GPU 集群,以期在 AI 竞赛中占据先机。这些集群不仅需要巨额的资本投入,还面临着数据中心容量和电力供应的限制。
以下是来自 SemiAnalysis 的原文:
有一个阵营认为,自 GPT-4 发布以来,人工智能能力一直停滞不前。总体而言,这是正确的,但这只是因为没有人能够大规模增加专用于单个模型的计算量。已发布的每个模型都与 GPT-4 大致相当(~2e25 FLOP 的训练计算量)。这是因为这些模型专用的训练计算量也大致相同。就谷歌的 Gemini Ultra、Nvidia Nemotron 340B 和 Meta LLAMA 3 405B 而言,与 GPT-4 相比,专用 FLOPS 的量级相近甚至更高,但使用的是劣质架构,导致这些模型无法释放新功能。
Source: SemiAnalysis Estimates
虽然 OpenAI 已经获得了更多的计算能力,但他们主要还是将其用于训练更小、训练过度、推理成本更低的模型,如 GPT-4 Turbo 和 GPT-4o。OpenAI 承认,他们最近才开始训练下一级模型。人工智能的下一步显然是利用海量视频、图像、音频和文本训练一个数万亿参数的多模态变换器。目前还没有人完成这项任务,但在争先恐后的竞争中,已经出现了一派热火朝天的景象。包括但不限于 OpenAI/微软、xAI 和 Meta 在内的多个大型人工智能实验室都在竞相建立拥有超过 100,000 个 GPU 的 GPU 集群。这些单个训练集群仅服务器资本支出就超过 40 亿美元,而且还受到数据中心容量和电力不足的严重限制,因为 GPU 通常需要共用位置以实现高速芯片到芯片联网。一个 100,000 个 GPU 的集群需要超过 150MW 的数据中心容量,并在一年内耗费 1.59 太瓦时,按 0.078 美元/千瓦时的标准费率计算,耗资 1.239 亿美元。
Source: SemiAnalysis, US EIA
今天,我们将深入探讨大型训练人工智能集群及其周围的基础设施。构建这些集群远比一掷千金要复杂得多。由于各种组件(尤其是网络)的故障率很高,因此实现高利用率更加困难。我们还将介绍这些系统的电源挑战、可靠性、检查点、网络拓扑选项、并行方案、机架布局和总材料清单。一年多以前,我们曾报道过 Nvidia 的 InfiniBand 问题,该问题导致一些公司选择 Spectrum-X 以太网而非 InfiniBand。我们还将介绍 Spectrum-X 的主要缺陷,该缺陷导致超大规模企业采用 Broadcom 的 Tomahawk 5。
为了说明 10 万 GPU 集群可以提供多少计算能力,OpenAI 在约 2 万个 A100 上对 GPT-4 进行的训练 BF16 FLOPS 约为 2.15e25 FLOP(2150 万 ExaFLOP),持续时间为 90 到 100 天。该集群的峰值吞吐量仅为 6.28 BF16 ExaFLOP/秒。在 10 万个 H100 集群上,这一数字将飙升至 198/99 FP8/FP16 ExaFLOP/秒。与 20k A100 集群相比,人工智能理论训练 FLOP 的峰值增加了 31.5 倍。
Source: Nvidia, SemiAnalysis
在 H100 上,人工智能实验室在万亿次参数训练运行中实现了高达 35% 的 FP8 模型 FLOPs 利用率(MFU)和 40% 的 FP16 MFU。概括地说,MFU 是衡量峰值潜在 FLOPS 的有效吞吐量和利用率的指标,其中已考虑到开销和各种瓶颈,如(功率限制、通信缺陷、重新计算、滞后和低效内核)。使用 FP8 训练 GPT-4 时,10 万 H100 集群只需 4 天。在 100k H100 集群上训练运行 100 天,可以实现约 6e26 的有效 FP8 模型 FLOP(6 亿 ExaFLOP)。需要注意的是,由于硬件的可靠性较差,MFU 大幅降低。
100K H100 集群所需的关键 IT 功率约为 150MW。虽然 GPU 本身的功耗仅为 700W,但在每台 H100 服务器中,CPU、网络接口卡(NIC)、电源装置(PSU)以及每个 GPU 所需的功耗约为 575W。除 H100 服务器外,人工智能集群还需要一系列存储服务器、网络交换机、CPU 节点、光收发器和许多其他设备,这些设备的总功耗约占 IT 功耗的 10%。从 150MW 的功率来看,最大的国家实验室超级计算机 El Capitan 只需要 30MW 的关键 IT 功率。政府超级计算机与工业超级计算机相比相形见绌。
一个主要的电力挑战是,目前没有一座数据中心大楼有能力部署约 150MW 的新设备。当人们提到 10 万 GPU 集群时,通常指的是单个园区,而不是大楼。由于缺乏其他选择,X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成了数据中心。这些集群与光学收发器联网,而光学收发器的成本与传输距离是成正比的。长距离 “单模 “DR 和 FR 收发器可以可靠地传输约 500 米至约 2 千米的信号,但其成本是 “多模 “SR 和 AOC 收发器的 2.5 倍,后者仅支持最长约 50 米的传输距离。此外,校园级 “相干 “800G 收发器的传输距离也超过 2 千米,但价格要高出 10 倍以上。
H100 的小型集群通常只使用多模收发器,通过一两层交换机将每个 GPU 以 400G 的速度连接到其他 GPU。如果是大型图形处理器集群,则必须增加更多层交换机,光学设备也会变得非常昂贵。这种集群的网络拓扑结构将根据首选供应商、当前和未来的工作负载以及资本支出而大不相同。
每栋大楼一般都包含一个或多个由廉价铜缆或多模收发器连接的计算舱。然后,它们将使用较长距离的收发器来实现计算 “岛 “之间的互连。下图显示了 4 个计算岛,岛内带宽较高,岛外带宽较低。要在一个地点提供 155MW 的计算能力非常具有挑战性,但我们正在跟踪超过 15 个微软、Meta、谷歌、亚马逊、Bytedance、X.AI、甲骨文等数据中心的建设情况,这些数据中心将为人工智能服务器和网络提供如此大的空间。
Source: SemiAnalysis
不同的客户根据不同的因素选择不同的网络拓扑结构,如数据运输基础设施、成本、可维护性、电源、当前和未来的工作负载等。因此,有些客户选择基于 Broadcom Tomahawk 5 的交换机,有些客户坚持使用 Infiniband,而有些客户则选择英伟达 Spectrum-X。下面我们将深入探讨其中的原因。要了解网络设计、拓扑结构、可靠性问题和检查点策略,我们首先要快速复习一下万亿次参数训练中使用的 3 种不同类型的并行性–数据并行性、张量并行性和管道并行性。我们在这里对并行性进行了全面解释,包括专家并行性。数据并行是最简单的并行形式,每个 GPU 拥有模型权重的全部副本,每个 GPU(等级)接收不同的数据子集。这种并行方式的通信水平最低,因为每个 GPU 之间只需将梯度相加(全部还原)。遗憾的是,数据并行只有在每个 GPU 都有足够内存来存储整个模型的权重、激活和优化器状态时才能起作用。对于像 GPT-4 这样的 1.8 万亿个参数模型,仅模型权重和优化器状态的训练就需要多达 10.8 TB 的内存。
Source: ColossalAI
为了克服这些内存限制,我们采用了张量并行技术。在张量并行技术中,每一层的工作和模型权重都分布在多个 GPU 上,一般跨越隐藏维度。中间工作通过自注意、前馈网络和每层的层归一化在设备间进行多次全还原交换。这需要高带宽,尤其需要极低的延迟。实际上,域中的每一个 GPU 都在每一层与其他 GPU 协同工作,就好像所有 GPU 都是一个庞然大物。张量并行可以通过张量并行的级数减少每个 GPU 使用的总内存。例如,目前在 NVLink 上通常使用 8 个张量并行等级,因此每个 GPU 使用的内存将减少 8 个。要克服每个 GPU 没有足够内存来适应模型权重和优化器状态的难题,另一种技术是使用流水线并行技术。利用流水线并行技术,每个 GPU 只拥有一个层的子集,只完成该层的计算,并将输出传递给下一个 GPU。这种技术通过管道并行的级数减少了所需的内存量。流水线并行对通信量的要求很高,但没有张量并行那么高。
Source: ColossalAI
为了最大限度地提高模型 FLOP 利用率 (MFU),公司通常会将所有三种并行形式结合起来,形成 3D 并行。然后将张量并行应用于 H100 服务器内的 GPU,再在同一岛内的节点间使用管道并行。由于数据并行性的通信量最小,而且岛与岛之间的联网速度较慢,因此岛与岛之间使用数据并行性。
像 FSDP 这样的整体技术在小型 GPU 世界中很常见,但对于超大型模型来说,它并不起作用。它实际上与流水线并行不兼容。
网络设计时要考虑并行性方案。如果每个 GPU 都以最大带宽连接到其他 GPU,采用胖树拓扑结构,那么成本将非常高昂,因为需要 4 层交换。由于每增加一层网络之间都需要光学器件,因此光学器件的成本也会飙升。
因此,没有人会为大型 GPU 集群部署全胖树架构。取而代之的是,他们依赖于制造具有全胖树架构的计算岛,同时减少这些计算岛之间的带宽。这样做的方法有很多种,但大多数公司都选择 “超量订阅 “顶层网络。例如,Meta 的上一代架构用于高达 32,000 个 GPU 集群。总共有 8 个岛,岛与岛之间的带宽为全脂带宽,然后在顶层的另一层交换层上进行 7:1 的超额订购。岛与岛之间的联网速度是岛内联网速度的 7 倍。
Source: Meta
GPU 部署有多个网络,包括前端网络、后端网络和扩展网络(NVLink)。在某些情况下,你将在每个网络中运行不同的并行方案。对于张量并行的带宽要求而言,NVLink 网络可能是唯一足够快的网络。你的后端通常可以轻松处理大多数其他类型的并行,但如果出现超额订购,通常只能采用数据并行。
此外,有些人甚至没有在顶层超额分配带宽的岛屿。相反,他们会从后端网络转移到前端网络,进行岛与岛之间的通信。
一家大型公司利用前端以太网在多个 InfiniBand 岛上进行培训。这是因为前端联网的成本要低得多,而且可以利用楼宇间现有的数据中心园区网络和区域路由。
Source: SemiAnalysis
遗憾的是,由于采用了 MoE 等稀疏技术,模型尺寸增长速度加快,前端网络需要处理的通信量也随之增加。这种权衡必须仔细优化,否则最终会出现两个网络成本相同的情况,因为前端网络带宽最终会增长到与后端网络带宽相匹配的程度。
值得注意的是,谷歌在多 TPU pod 训练运行中只使用前端网络。他们被称为 ICI 的 “计算结构 “最多只能扩展到 8960 个芯片,每个 64 TPU 水冷机架之间需要连接昂贵的 800G 光缆和光路交换机。因此,谷歌必须使 TPU 前端网络比大多数 GPU 前端网络更强大,以弥补这一不足。
Source: Google at MLSys24
在训练过程中使用前端网络时,必须在各岛之间进行网络拓扑感知全局还原。首先,每个 pod 或岛屿将在 pod 内的 InfiniBand 或 ICI 网络中执行局部还原散射,这将使每个 GPU/TPU 拥有梯度的一部分总和。接下来,将使用前端以太网网络在每个主机等级之间执行跨 pod 全还原,最后每个 pod 将执行 pod 级全收集。
前端网络还负责加载数据。随着多模态图像和视频训练数据的发展,对前端网络的要求将呈指数级增长。在这种情况下,前端网络带宽将在加载大型视频文件和进行所有还原之间争夺。此外,由于存储网络流量不规则,会导致整个还原过程变慢,无法进行预测建模,从而增加了滞后问题。
另一种方法是使用 4 层 InfiniBand 网络,采用 7:1 的超额订购,4 个 pod,每个 pod 有 24,576 个 H100,采用无阻塞 3 层系统。与使用前端网络相比,这为将来增加带宽提供了更大的灵活性,因为与在集群的每个机箱中进行全面的前端网络网卡升级以将其从 100G 升级到 200G 等相比,从大楼 A 中的交换机向大楼 B 中的另一个交换机添加更多光纤收发器要容易得多。
这样可以创建一个更稳定的网络模式,因为前端网络可以只专注于加载数据和检查点,而后端网络可以只专注于 GPU 与 GPU 之间的通信。这也有助于解决散兵游勇的问题。但遗憾的是,由于需要额外的交换机和收发器,4 层 Infiniband 网络非常昂贵。为了提高可维护性并增加铜缆网络(< 3 米)和多模网络(< 50 米)的使用,一些客户选择放弃英伟达推荐的轨道优化设计,转而采用中间架设计。
Source: Nvidia
轨道优化是一种技术,可让每台 H100 服务器连接到 8 个不同的叶交换机(而不是全部连接到同一个机架中间的交换机),这样每个 GPU 只需跳一次交换机就能与更远的 GPU 通信。这样就能在现实世界中提高 “全对全 “的集体性能。在混合专家(MoE)专家并行中,大量使用了全对全集体通信。
Source: Crusoe
导轨优化设计的缺点是,你必须连接到不同距离的不同叶片交换机,而不是将一个机架中间的交换机靠近服务器中的所有 8 个 GPU。当交换机位于同一机架时,可以使用无源直连电缆(DAC)和有源电缆(AEC),但在轨道优化设计中,交换机不一定位于同一机架,因此必须使用光学器件。此外,叶片到脊柱的距离可能大于 50 米,因此必须使用单模光收发器。通过使用非导轨优化设计,你可以用廉价的直接连接铜缆取代连接 GPU 和叶子交换机的 98,304 个光纤收发器,从而使你的 GPU Fabric 中 25-33% 为铜缆。从下面的机架图中可以看到,每个 GPU 与板上交换机的连接不再是先连接到电缆托架,然后再从侧面穿过 9 个机架连接到专用的轨道优化板上交换机机架,而是将板上交换机放在机架中间,让每个 GPU 都能使用 DAC 铜缆。
非轨道优化的机架中部, Source: SemiAnalysis
与光缆相比,DAC 铜缆运行温度更低、耗电更少、成本更低。由于 DAC 电缆运行温度更低、功耗更低、可靠性更高,这就减少了拍击(网络链路间歇性瘫痪)和故障,而这正是所有使用光学器件的高速互连所面临的主要问题。在使用 DAC 铜缆时,Quantum-2 IB 脊柱交换机的耗电量为 747 瓦。使用多模光收发器时,功耗会增加到 1,500 瓦。
优化轨道末端的机架, Source: SemiAnalysis
此外,轨道优化设计的初始布线对于数据中心技术人员来说非常耗时,因为每个链路的两端距离长达 50 米,而且不在同一个机架上。而在中间机架设计中,叶交换机与连接到叶交换机的所有 GPU 位于同一机架上。在中间机架设计中,你甚至可以在集成工厂测试计算节点到叶子交换机的链路,因为所有链路都在同一个机架上。
经过优化的行端水冷导轨, Source: SemiAnalysis
由于当前前沿训练技术的同步性,可靠性是这些巨型集群最重要的运行问题之一。最常见的可靠性问题是 GPU HBM ECC 错误、GPU 驱动器卡死、光收发器故障、网卡过热等。节点不断宕机或出错。
为了保持较短的故障恢复平均时间和继续培训,数据中心必须在现场保留热备用节点和冷备用组件。当发生故障时,最好的办法不是停止整个培训运行,而是换上已经开启的工作备用节点,继续培训。这些服务器的大部分停机时间都是简单地对节点进行电源循环/重启,然后修复出现的任何问题。
不过,简单的重启并不能解决所有问题,在许多情况下,这需要数据中心技术人员对设备进行物理诊断和更换。在最好的情况下,数据中心技术人员只需几个小时就能修复损坏的 GPU 服务器,但在很多情况下,损坏的节点可能需要几天时间才能重新投入训练运行。损坏的节点和备用热节点是指尽管理论上可以提供 FLOPS,但并不积极为模型做出贡献的 GPU。
在训练模型时,需要经常将模型检查点到 CPU 内存或 NAND SSD,以防出现 HBM ECC 等错误。发生错误时,必须从较慢的内存层重新加载模型和优化器的权重,然后重新开始训练。容错训练技术(如 Oobleck)可用于提供用户级应用驱动方法,以处理 GPU 和网络故障。
遗憾的是,频繁的检查点和容错训练技术会损害系统的整体 MFU。集群需要不断暂停,将当前权重保存到持久内存或 CPU 内存中。此外,从检查点重新加载时,通常每 100 次迭代才保存一次。这意味着你最多只能丢失 99 步有用的工作。在一个 10 万集群上,如果每次迭代耗时 2 秒,那么在第 99 次迭代失败时,最多会损失 229 GPU 天的工作。
故障恢复的另一种方法是让备用节点通过后端结构从其他 GPU 进行 RDMA 复制。由于后端 GPU 结构的速度约为 400Gbps,每个 GPU 有 80GB 的 HBM 内存,因此复制权重大约需要 1.6 秒。采用这种方法,最多只能损失 1 个步骤(因为更多 GPU HBM 将拥有最新的权重副本),因此只需 2.3 个 GPU 天的计算时间,再加上从其他 GPU HBM 内存 RDMA 复制权重的 1.85 个 GPU 天。
大多数领先的人工智能实验室都采用了这一技术,但许多小型公司仍坚持使用繁重、缓慢、低效的技术,即从检查点重新启动处理所有故障。通过内存重构实现故障恢复可为大型训练运行的 MFU 增加多个百分点。
Source: Meta
遇到的最常见问题之一是 Infiniband/RoCE 链路故障。由于收发器数量较多,即使每个网卡到叶子交换机链路的平均故障率为 5 年,在一个全新的、正常运行的集群上发生第一次作业故障也只需要 26.28 分钟。如果不通过内存重建进行故障恢复,那么在 10 万个 GPU 集群中,由于光学故障而重新启动训练运行所花费的时间将比推进模型所花费的时间更多。
Source: SemiAnalysis
由于每个 GPU 都直接连接到一个 ConnectX-7 网卡(通过 PCIe 交换机),因此在网络架构层面不存在容错,因此必须在用户培训代码中处理故障,这直接增加了代码库的复杂性。这也是英伟达(NVIDIA)和 AMD 当前 GPU 网络结构面临的主要挑战之一,即使一个网卡出现故障,该 GPU 也没有其他路径与其他 GPU 通信。由于当前 LLMs 在节点内使用张量并行的方式,即使一个 NIC、一个收发器或一个 GPU 出现故障,也会导致整个服务器瘫痪。为了使网络可重新配置,使节点不再如此脆弱,我们正在做大量的工作。这项工作至关重要,因为现状意味着只要有一个 GPU 故障或一个光学故障,整个 GB200 NVL72 就会瘫痪。
一个价值数百万美元的 72 个 GPU 机架的瘫痪要比一个价值几十万美元的 8 个 GPU 服务器的瘫痪更具灾难性。Nvidia 已经注意到这一重大问题,并为可靠性、可用性和可维护性(RAS)添加了一个专用引擎。我们相信,RAS 引擎会分析芯片级数据,如温度、ECC 重试恢复次数、时钟速度和电压,以预测芯片何时可能发生故障,并向数据中心技术人员发出警报。这将使他们能够进行主动维护,如使用更高的风扇转速以保持可靠性,在稍后的维护窗口将服务器停用以进行进一步的物理检查。
此外,在开始训练任务之前,每个芯片的 RAS 引擎都将执行全面的自检,例如运行已知结果的矩阵乘法,以检测静默数据损坏(SDC)。微软/Openai 等客户的另一项成本优化措施是在每台服务器上使用 Cedar Fever-7 网络模块,而不是使用 8 个 PCIe 外形的 ConnectX-7 网络卡。使用 Cedar Fever 模块的主要好处之一是只需使用 4 个 OSFP 机架,而不是 8 个 OSFP 机架,这样就可以在计算节点端使用双端口 2x400G 收发器,而不仅仅是交换机端。这样,每个 H100 节点连接到叶子交换机的收发器数量就从 8 个减少到 4 个。将 GPU 连接到叶子交换机的计算节点端收发器总数从 98,304 个减少到 49,152 个。
Source: Nvidia
由于 GPU 到叶子交换机的链路减少了一半,这也有助于估算首次任务失败的时间。我们估计,每个双端口 2x400G 链路的平均故障时间为 4 年(而单端口 400G 链路为 5 年),这将使首次工作故障的估计时间缩短至 42.05 分钟,远远优于不使用 Cedar-7 模块时的 26.28 分钟。
Source: ServeTheHome
目前正在部署一个 10 万 H100 集群,将于年底投入使用,该集群使用英伟达 Spectrum-X 以太网。
去年,我们介绍了在大型网络中 Spectrum-X 相对于 InfiniBand 的各种优势。在性能和可靠性优势之外,Spectrum-X 还具有巨大的成本优势。Spectrum-X 以太网每个 SN5600 交换机有 128 个 400G 端口,而 InfiniBand NDR Quantum-2 交换机只有 64 个 400G 端口。需要注意的是,Broadcom 的 Tomahawk 5 交换机 ASIC 也支持 128 个 400G 端口,这使得当前一代的 InfiniBand 处于非常不利的地位。
完全互联的 100k 集群可以是 3 层而不是 4 层。4 层而不是 3 层意味着需要多 1.33 倍的收发器。由于 Quantum-2 交换机的弧度较低,100k 集群上完全互联的 GPU 数量最多只能达到 65,536 个 H100。名为 Quantum-X800 的下一代 InfiniBand 交换机通过 144 个 800G 端口解决了这一问题,不过从 “144 “这个数字可以看出,该交换机是为 NVL72 和 NVL36 系统设计的,预计不会在 B200 或 B100 集群中大量使用。尽管使用 Spectrum-X 可以节省 4 层的成本,但不幸的是,你仍然需要从 Nvidia LinkX 产品线购买高价收发器,因为其他收发器可能无法使用或无法通过 Nvidia 的验证。
与其他供应商相比,Spectrum-X 的主要优势在于,Spectrum-X 得到了 NCCL 等 NVIDIA 库的一流支持,Jensen 会将你推上分配队列,成为其新产品线的首批客户之一,而 Tomahawk 5 芯片则需要大量的内部工程努力,利用 NCCL 优化网络,以实现最大吞吐量。
Source: SemiAnalysis
在 GPU 结构中使用以太网而非 InfiniBand 的一个不利因素是,以太网目前不支持 SHARP 网内还原。网络内还原是通过网络交换机对每个 GPU 进行计算求和来实现的。SHARP 的理论网络带宽增加了 2 倍,因为它将每个 GPU 的发送和写入次数减少了 2 倍。
Source: Nvidia
Spectrum-X 的另一个缺点是,对于第一代 400G Spectrum-X,Nvidia 使用 Bluefield3 代替 ConnectX-7 作为临时解决方案。对于未来几代产品,我们预计 ConnectX-8 可以与 800G Spectrum-X 完美配合。Bluefield-3 和 ConnectX-7 显卡之间的价格差距约为 300 美元(ASP)(超大规模),另一个不利因素是该显卡的功耗比 ConnectX-7 高 50 瓦。因此,每个节点都需要 400 瓦的额外功率,从而降低了整个培训服务器的 “每皮焦智能”。
与采用完全相同网络架构的 Broadcom Tomahawk 5 部署相比,你现在将 Spectrum X 放在数据中心中,部署 100,000 个 GPU 需要额外的 5MW 电力。为了避免缴纳巨额的 Nvidia 税,许多客户都在部署基于 Broadcom Tomahawk 5 的交换机。每台基于 Tomahawk 5 的交换机的端口数与 Spectrum-X SN5600 交换机相同,都是 128 个 400G 端口,如果公司有优秀的网络工程师,还能实现类似的性能。此外,你还可以从世界上任何供应商处购买任何通用收发器和铜缆,并进行混合和匹配。
大多数客户直接与 Celestica 等 ODM 厂商合作,使用基于 Broadcom 的交换机 ASIC 制造交换机,并与 Innolight 和 Eoptolink 等公司合作制造收发器。根据交换机成本和通用收发器成本,Tomahawk 5 比 Nvidia InfiniBand 便宜很多,比 Nvidia Spectrum-X 也便宜。但不幸的是,需要有足够的工程能力为 Tomahawk 5 修补和优化 NCCL 通信集群。开箱即用的 NCCL 通信集体仅针对 Nvidia Spectrum-X 和 Nvidia InfiniBand 进行了优化。好消息是,如果你有 40 亿美元来购买一个 10 万集群,你就有足够的工程能力来修补 NCCL 和编写优化程序。当然,软件是很难的,Nvidia 总是走在最前沿,但一般来说,我们希望每个超级分频器都能进行这些优化,并放弃 InfiniBand。
Source: SemiAnalysis
现在,我们将讨论 4 种不同的 100k GPU 群集网络设计的材料清单、与之相关的交换机和收发器成本(显示不同网络设计的优势),以及为减少光学器件而优化的 GPU 群集的物理平面图。
每个 10 万 H100 集群的资本支出总额约为 40 亿美元,但根据所选网络类型的不同而有所差异。我们提出了 4 种不同的方案。
- 4 层 InfiniBand 网络,32,768 个 GPU 岛,采用轨道优化设计,7:1 超额订阅比
- 3 层 Spectrum X 网络,32,768 个 GPU 岛,采用轨道优化设计,7:1 超额订阅比
- 带有 24,576 个 GPU 岛的 3 层 InfiniBand 网络,非轨道优化,用于节点间的前端网络
- 3 层 Broadcom Tomahawk 5 以太网网络,带 32,768 个 GPU 岛,经过轨道优化,7:1 超额订阅比
Source: SemiAnalysis
比较各公司正在构建的所有四种不同类型的网络拓扑结构,4 层 InfiniBand 网络的成本是其他方案的 1.3-1.6 倍。这就是为什么没有人真正选择大型 InfiniBand 网络的原因。使用 InfiniBand 可以实现障碍选项 3,但它严重降低了并行方案的灵活性。Spectrum X 可以提供更大的岛屿、更多的岛屿间带宽和类似的成本,但它也带来了巨大的代价,那就是需要比最佳选择更多的电力。
我们认为,基于 Broadcom Tomahawk 5 的 32k Island,在顶层采用 7:1 的超量订阅,是最具成本效益的选择,这也是多家公司正在建设类似网络的原因。由于无需支付英伟达税,它的总体拥有成本(TCO)可提供最高的网络性能,而且它进入 Meta 等大型公司市场的时间比 Spectrum X 的上市时间还要长。优化机架布局和平面图非常重要,这样可以使用尽可能多的铜缆和多模光纤。
下面是一个使用轨道优化 Spectrum-X / Tomahawk 5 的 32k 岛的平面图。正如你所看到的,在某些行中,叶子交换机不在同一排,而是在另一排。这是为了优化 50 米多模光纤的使用,因为如果将多模收发器放在行的末端,那么中间的脊柱交换机显然就不在距离之内。
Source: SemiAnalysis
上图显示的是 4 节点机架设计。这符合微软的标准数据中心物理设计。
Source: SemiAnalysis,注:目前该 10 万组群的 4 栋楼宇中只有 3 栋已建成。
在这个微软开发集群中,每个机架支持高达 40kW 的功率密度,每个机架容纳四个 H100 节点。该基础设施采用了独特的布线设置,机架内交换机之间的连接使用铜缆(尤其是每排末端的黑色大电缆)。而从 H100 服务器到叶子交换机的连接则使用多模 AOC 光纤,可通过蓝色电缆识别。
Source: 微软
归根结底,英伟达公司将是多个 10 万 H100 集群的头号赢家,因为他们在 BoM 中占据了较大份额。在我们的加速器模型中,我们按 SKU 和公司出货量细分 GPU 和 ASIC 产量/ASP。展望未来,由于博通几乎主导了所有的超级分频器集群,其网络收入将继续飙升。Nvidia 将继续保持网络业务的增长,因为许多新云、主权国家和企业将选择 Nvidia 的参考设计。
_参考链接:_https://www.semianalysis.com/p/100000-h100-clusters-power-network