2024 年 9 月 5 日,AI 硬件初创公司 Groq 发布了其首个多模态端点 LLaVA-v1.5-7B,该端点支持视觉 / 图像输入。在初步基准测试中,Groq 的 LLaVA-v1.5-7B 在处理 1024×1024 图像和 100 个文本标记的输入时,响应时间中位数为 0.99 秒,比 OpenAI 的 GPT-4 快了四倍。该端点目前以预览模式提供,暂不收费。
Groq 是一家成立于 2016 年的 AI 硬件初创公司,总部位于硅谷。其核心技术是 LPU(Language Processing Unit),一种新型的端到端处理单元系统,专为处理大规模语言模型(LLM)而设计。LPU 的设计初衷是为了提供极快的推理速度和低延迟,满足现代 AI 应用对计算性能的高要求。
LPU 在处理基于语言的任务时表现出色。在一项展示中,LPU 以每秒超过 100 个词组的速度执行了拥有 700 亿个参数的 Llama-2 模型。此外,LPU 在 Mixtral 中展示了其实力,实现了每个用户每秒近 500 个 token 的推理速度。
Groq 的 LPU 在速度上有显著优势,其成本也远低于传统 GPU。根据 Groq 的数据显示,LPU 的运行成本仅为英伟达 GPU 的十分之一。Groq 的 LPU 推理引擎在北美设计、制造和组装,提供大规模的云端和本地解决方案。
在与其他 AI 芯片的对比中,Groq 的 LPU 表现尤为突出。英伟达的 GPU 虽然在 AI 训练方面占据主导地位,但在推理速度和成本方面,LPU 显然更具优势。Groq 的 LPU 在处理多模态任务时表现尤为出色,这也是其 LLaVA-v1.5-7B 端点能够在基准测试中超越 GPT-4 的原因之一。
2024 年 8 月 5 日,Groq 宣布完成了一轮 6.4 亿美元的融资,由 Cisco Investments、Samsung Catalyst Fund 和 BlackRock Private Equity 领投。这轮融资使得 Groq 的估值达到了 28 亿美元。