OpenAI 凌晨发布了他们的最新 AI 模型——o1 系列,这消息一下子就炸开了锅。o1 系列在解决复杂问题方面表现出色,特别是在博士水平的物理问题上,得分高达 92.8 分,远超 GPT-4o 的 59.5 分。o1 系列是 OpenAI 首个采用强化学习训练的模型,通过构建长思维链来增强推理能力。
o1 系列包含三个型号:o1、o1-preview 和 o1-mini。o1 是最强大的版本,目前尚未公开;o1-preview 是早期版本,已提供给 ChatGPT 的付费用户和 API 用户;o1-mini 则适用于需要推理但不需要广泛世界知识的任务。
在性能测试中,o1 系列展现了显著的能力。在 2024 年国际信息学奥赛(IOI)中,o1 的微调版本在每题尝试 50 次的条件下取得了 213 分,相当于人类选手中前 49% 的成绩。如果每题尝试 10000 次,o1 可以获得 362.14 分,超过金牌选手的门槛。此外,o1 在 Codeforces 竞争性编程问题中排名前 89%,并在美国数学奥林匹克(AIME)预选赛中跻身前 500 名。
与 GPT-4o 相比,o1 在多个学科上都有显著的成绩提升。OpenAI 的科学家 Noam Brown 分享了个人测试结果,显示 o1-preview 能够解决之前所有大模型都无法解决的逻辑难题。
o1 系列的特点在于其强化学习训练和长思维链技术。长思维链技术通过逐步解释推理过程,而不是直接给出答案,帮助模型进行推理。这种技术使得模型在回答问题时更像人类解题的过程。
在 AI 训练中,人工标注思维链既耗时又昂贵,因此强化学习成为了更实用的选择。强化学习让模型通过实践和试错自我学习,不断优化解决问题的方法。
o1 模型通过强化学习不断完善思考过程,学会识别和纠正错误,将复杂步骤分解为更简单的部分,并在遇到障碍时尝试新的方法。这种训练方式显著提升了 o1 的推理能力。
在实际应用中,o1 模型已在医疗、物理学和软件开发等领域展示了其能力。例如,在编写 Bash 脚本的编程任务中,o1-preview 通过拆解任务和明确步骤,提高了代码的准确性和开发效率。
o1 模型还在 IOI 中取得了优异的成绩,展示了其在复杂算法问题上的能力。在 Codeforces 和 AIME 预选赛中的表现也证明了 o1 在多个学科上的显著成绩提升。
根据 OpenAI 官方说法,ChatGPT Plus 和 Team 用户最早可在几个小时内体验到 o1 系列模型。在发布时,o1-preview 限制为每周 30 条消息,o1-mini 每周 50 条。API 访问权限将首先给 Tier 5 级用户,也就是已经在 OpenAI API 上花费超过 1000 美元的人。