在 2024 年 10 月 1 日,OpenAI 的最新模型 o1-preview 和 o1-mini 在生产环境中的应用受限,主要原因是高端到端延迟和成本。基准测试显示,o1-mini 的中位请求时间约为 15 秒,而 o1-preview 则为 34 秒,且 o1-preview 的成本比 GPT-4 高出 30 倍以上。这是因为这些模型生成的输出 tokens 数量远多于其他模型。
新兴的 AI 专用芯片公司如 Groq Inc、SambaNova AI 和 Cerebras Systems 提供的输出速度比基于 Nvidia 的提供商快数倍,且每个 token 的定价更低。这些芯片的输出速度和较低的成本可能是实现 o1 模型推理能力在生产环境中应用的关键。
与其他模型相比,o1-preview 和 o1-mini 在某些特定任务上表现出色。例如,在国际数学奥林匹克竞赛资格考试中,o1-preview 解决了 83% 的问题,而 GPT-4o 仅解决了 13%。在编码竞赛中,o1-mini 的表现也优于 o1-preview,且成本更低。然而,这些优势并不足以弥补其在生产环境中的高延迟和高成本问题。
SambaNova 最近在 HuggingFace 上展示了一个基于 Llama 3.1 的高速度演示,展示了其在企业 AI 中的可扩展解决方案。
尽管存在这些问题,OpenAI 的 o1 模型在某些领域仍然表现出色。根据 OpenAI 的说法,o1 在物理、化学和生物学等挑战性基准任务中表现得与博士生相当,甚至在数学和编码方面表现优异。在教育领域,o1-preview 和 o1-mini 模型被用于解决复杂的数学和科学问题。根据 OpenAI 的初步测试,o1-preview 模型在国际数学奥林匹克竞赛资格考试中解决了 83% 的问题,这一成绩显著高于 GPT-4o 的 13%。此外,o1-preview 模型在编码竞赛中的表现也非常出色,在 Codeforces 平台上排名第 89 位。
在企业应用中,o1-mini 模型由于其较低的成本和较快的响应速度,成为了许多开发者的首选。特别是在需要生成和调试复杂代码的任务中,o1-mini 模型表现出色。
SambaNova 最近在 HuggingFace 上展示了一个基于 Llama 3.1 的高速度演示,展示了其在企业 AI 中的可扩展解决方案。