Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

“Groq 革新 AI 推理:Llama 3.1 端点速度超其他供应商 20 倍”

2024-11-16

2024 年 11 月 16 日,AI 硬件公司 Groq 推出了 Llama 3.1 70B 端点,并应用推测解码技术,实现了超过 1,665 个输出 token/s 的速度。这项技术通过较小的草稿模型进行预测,并由主要模型验证,使推理速度达到现有端点的六倍,比其他供应商的中位数高出二十倍。在某些测试场景中,Groq 系统能够实现约 2,500 个输出 token/s。

Groq 的新端点引起了开发者的关注,其 LPU 芯片采用 14 纳米工艺,专为提升 AI 推理速度而设计。公司针对付费客户市场推出了定价策略,每百万输入 token 收费 0.59 美元,每百万输出 token 收费 0.99 美元。这些芯片作为 AI 推理技术的解决方案,有效降低了计算和时间消耗。

推测解码通过减少冗余计算步骤,提高了 AI 推理的速度,适用于内容生成、会话 AI 和实时决策等领域。这项技术还帮助企业提高客服系统的效率,并在智能规划中实现更高效的决策。

AI 日报

查看全部日报

  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%

©2025 毫河风报 沪ICP备18012441号-5