2024 年 11 月 16 日,AI 硬件公司 Groq 推出了 Llama 3.1 70B 端点,并应用推测解码技术,实现了超过 1,665 个输出 token/s 的速度。这项技术通过较小的草稿模型进行预测,并由主要模型验证,使推理速度达到现有端点的六倍,比其他供应商的中位数高出二十倍。在某些测试场景中,Groq 系统能够实现约 2,500 个输出 token/s。
Groq 的新端点引起了开发者的关注,其 LPU 芯片采用 14 纳米工艺,专为提升 AI 推理速度而设计。公司针对付费客户市场推出了定价策略,每百万输入 token 收费 0.59 美元,每百万输出 token 收费 0.99 美元。这些芯片作为 AI 推理技术的解决方案,有效降低了计算和时间消耗。
推测解码通过减少冗余计算步骤,提高了 AI 推理的速度,适用于内容生成、会话 AI 和实时决策等领域。这项技术还帮助企业提高客服系统的效率,并在智能规划中实现更高效的决策。