Oracle 与 Nvidia 联手，全球首个 zettascale AI 集群亮相！

2024 年 9 月 12 日，Oracle 公司在其 Oracle CloudWorld 大会上预览了全球首个 zettascale 计算集群。该集群将为人工智能工作负载提供高达 2.4 zettaflops 的性能。一个 zettaflop 等于每秒一万亿亿次计算操作。Oracle 计划将这一集群用于其公共云服务。

Oracle 的 zettascale AI 集群基于 Nvidia 公司的 Blackwell B200 图形处理单元。客户在配置 131,072 个 B200 芯片时，集群可以达到其 2.4 zettaflop 的最高速度，这是 Oracle 计划支持的最大 GPU 数量。这一数量是世界上最快的超级计算机 —— 美国能源部用于科学研究的 Frontier 系统中图形卡数量的三倍多。

B200 芯片由两个独立的计算模块或芯片组成，采用四纳米制造工艺制造。它们通过一个可以每秒传输高达 10 terabytes 数据的互连连接在一起。B200 还配备了 192GB 的 HBM3e 内存，这是一种高速 RAM，使其总晶体管数量达到 2080 亿。该芯片的一项特性是所谓的微缩能力。AI 模型以浮点数的形式处理信息，这些数据单位包含 4 到 32 位的信息。数据单位越小，处理所需的时间就越少。B200 的微缩能力可以将一些浮点数压缩成更小的单位，从而加快计算速度。

Oracle 的 B200 驱动的 AI 集群将支持两种网络协议：InfiniBand 和 RoCEv2，这是一种增强版的以太网。这两种技术都包含所谓的内核绕过功能，允许网络流量绕过通常必须经过的一些组件，以便更快地到达目的地。这种安排使数据能够更快地到达 GPU，从而加快处理速度。

此外，Oracle 还将很快推出一个完全托管的 Lustre 文件服务，可以支持每秒数十个 terabits 的吞吐量。为了匹配增加的存储吞吐量，Oracle 将 OCI GPU 计算前端网络的容量从 H100 GPU 加速实例的 100 Gbps 提高到 H200 GPU 加速实例的 200 Gbps，以及 B200 GPU 和 GB200 实例的每个实例 400 Gbps。

Oracle 的 zettascale AI 集群在管理和监控方面提供了支持。Oracle 云基础设施的执行副总裁 Mahesh Thiagarajan 在一篇博客文章中详细说明：“我们包括超级集群监控和管理 API，以便您能够快速查询集群中每个节点的状态，了解性能和健康状况，并将节点分配给不同的工作负载。”

这些 API 使得客户可以管理和监控他们的 AI 工作负载，确保集群的高可用性和性能。例如，一家大型科技公司可以利用 Oracle 的 zettascale AI 集群来训练其最新的自然语言处理模型。