“Groq 革新 AI 推理：Llama 3.1 端点速度超其他供应商 20 倍”

2024 年 11 月 16 日，AI 硬件公司 Groq 推出了 Llama 3.1 70B 端点，并应用推测解码技术，实现了超过 1,665 个输出 token/s 的速度。这项技术通过较小的草稿模型进行预测，并由主要模型验证，使推理速度达到现有端点的六倍，比其他供应商的中位数高出二十倍。在某些测试场景中，Groq 系统能够实现约 2,500 个输出 token/s。

Groq 的新端点引起了开发者的关注，其 LPU 芯片采用 14 纳米工艺，专为提升 AI 推理速度而设计。公司针对付费客户市场推出了定价策略，每百万输入 token 收费 0.59 美元，每百万输出 token 收费 0.99 美元。这些芯片作为 AI 推理技术的解决方案，有效降低了计算和时间消耗。

推测解码通过减少冗余计算步骤，提高了 AI 推理的速度，适用于内容生成、会话 AI 和实时决策等领域。这项技术还帮助企业提高客服系统的效率，并在智能规划中实现更高效的决策。