Cerebras Systems 推出 AI 推理服务，速度比 Nvidia 快 20 倍！

2024 年 8 月 28 日，Cerebras Systems 宣布推出 AI 推理服务。Cerebras Inference 服务能够以每秒 1,850 个令牌的速度处理 Llama 3.1 8B 模型，并以每秒 446 个令牌的速度处理 Llama 3.1 70B 模型。该服务的定价为 Llama 3.1 8B 模型每百万令牌 0.1 美元，Llama 3.1 70B 模型每百万令牌 0.6 美元。

Cerebras Inference 服务的核心是其定制的 5nm AI 芯片 WSE-3，这是一种晶圆级设计。WSE-3 芯片的总面积超过 Nvidia H100 的 50 倍，拥有 900,000 个核心和 44GB 的片上内存（SRAM）。这种设计使得 Cerebras 能够提供推理速度和效率。

与 Nvidia 的 GPU 相比，Cerebras Inference 在速度和成本上具有优势。根据 Cerebras 的说法，其推理服务比使用 Nvidia 最强大 GPU 的类似云推理服务快多达 20 倍。Cerebras 为开源的 Llama 3.1 8B 模型提供每秒 1,800 个令牌的处理速度，而为 Llama 3.1 70B 模型提供每秒 450 个令牌的处理速度。

人工分析公司（Artificial Analysis Inc.）的联合创始人兼首席执行官 Micah Hill-Smith 表示，他的团队已经验证了在 Cerebras Inference 上运行的 Llama 3.1 8B 和 70B 的 “质量评估结果” 与 Meta 官方版本的原生 16 位精度相符。

除了推理服务外，Cerebras 还宣布了一系列战略合作伙伴关系，以便为客户提供加速 AI 开发所需的所有专业工具。其合作伙伴包括 LangChain、LlamaIndex、Docker Inc.、Weights & Biases Inc. 和 AgentOps Inc. 等公司。