2024 年 9 月 12 日,Oracle 公司在其 Oracle CloudWorld 大会上预览了全球首个 zettascale 计算集群。该集群将为人工智能工作负载提供高达 2.4 zettaflops 的性能。一个 zettaflop 等于每秒一万亿亿次计算操作。Oracle 计划将这一集群用于其公共云服务。
Oracle 的 zettascale AI 集群基于 Nvidia 公司的 Blackwell B200 图形处理单元。客户在配置 131,072 个 B200 芯片时,集群可以达到其 2.4 zettaflop 的最高速度,这是 Oracle 计划支持的最大 GPU 数量。这一数量是世界上最快的超级计算机 —— 美国能源部用于科学研究的 Frontier 系统中图形卡数量的三倍多。
B200 芯片由两个独立的计算模块或芯片组成,采用四纳米制造工艺制造。它们通过一个可以每秒传输高达 10 terabytes 数据的互连连接在一起。B200 还配备了 192GB 的 HBM3e 内存,这是一种高速 RAM,使其总晶体管数量达到 2080 亿。该芯片的一项特性是所谓的微缩能力。AI 模型以浮点数的形式处理信息,这些数据单位包含 4 到 32 位的信息。数据单位越小,处理所需的时间就越少。B200 的微缩能力可以将一些浮点数压缩成更小的单位,从而加快计算速度。
Oracle 的 B200 驱动的 AI 集群将支持两种网络协议:InfiniBand 和 RoCEv2,这是一种增强版的以太网。这两种技术都包含所谓的内核绕过功能,允许网络流量绕过通常必须经过的一些组件,以便更快地到达目的地。这种安排使数据能够更快地到达 GPU,从而加快处理速度。
此外,Oracle 还将很快推出一个完全托管的 Lustre 文件服务,可以支持每秒数十个 terabits 的吞吐量。为了匹配增加的存储吞吐量,Oracle 将 OCI GPU 计算前端网络的容量从 H100 GPU 加速实例的 100 Gbps 提高到 H200 GPU 加速实例的 200 Gbps,以及 B200 GPU 和 GB200 实例的每个实例 400 Gbps。
Oracle 的 zettascale AI 集群在管理和监控方面提供了支持。Oracle 云基础设施的执行副总裁 Mahesh Thiagarajan 在一篇博客文章中详细说明:“我们包括超级集群监控和管理 API,以便您能够快速查询集群中每个节点的状态,了解性能和健康状况,并将节点分配给不同的工作负载。”
这些 API 使得客户可以管理和监控他们的 AI 工作负载,确保集群的高可用性和性能。例如,一家大型科技公司可以利用 Oracle 的 zettascale AI 集群来训练其最新的自然语言处理模型。