OpenAI 发布 o1 系列，博士物理问题得分 92.8，GPT-4o 仅 59.5

OpenAI 凌晨发布了他们的最新 AI 模型——o1 系列，这消息一下子就炸开了锅。o1 系列在解决复杂问题方面表现出色，特别是在博士水平的物理问题上，得分高达 92.8 分，远超 GPT-4o 的 59.5 分。o1 系列是 OpenAI 首个采用强化学习训练的模型，通过构建长思维链来增强推理能力。

o1 系列包含三个型号：o1、o1-preview 和 o1-mini。o1 是最强大的版本，目前尚未公开；o1-preview 是早期版本，已提供给 ChatGPT 的付费用户和 API 用户；o1-mini 则适用于需要推理但不需要广泛世界知识的任务。

在性能测试中，o1 系列展现了显著的能力。在 2024 年国际信息学奥赛（IOI）中，o1 的微调版本在每题尝试 50 次的条件下取得了 213 分，相当于人类选手中前 49% 的成绩。如果每题尝试 10000 次，o1 可以获得 362.14 分，超过金牌选手的门槛。此外，o1 在 Codeforces 竞争性编程问题中排名前 89%，并在美国数学奥林匹克（AIME）预选赛中跻身前 500 名。

与 GPT-4o 相比，o1 在多个学科上都有显著的成绩提升。OpenAI 的科学家 Noam Brown 分享了个人测试结果，显示 o1-preview 能够解决之前所有大模型都无法解决的逻辑难题。

o1 系列的特点在于其强化学习训练和长思维链技术。长思维链技术通过逐步解释推理过程，而不是直接给出答案，帮助模型进行推理。这种技术使得模型在回答问题时更像人类解题的过程。

在 AI 训练中，人工标注思维链既耗时又昂贵，因此强化学习成为了更实用的选择。强化学习让模型通过实践和试错自我学习，不断优化解决问题的方法。

o1 模型通过强化学习不断完善思考过程，学会识别和纠正错误，将复杂步骤分解为更简单的部分，并在遇到障碍时尝试新的方法。这种训练方式显著提升了 o1 的推理能力。

在实际应用中，o1 模型已在医疗、物理学和软件开发等领域展示了其能力。例如，在编写 Bash 脚本的编程任务中，o1-preview 通过拆解任务和明确步骤，提高了代码的准确性和开发效率。

o1 模型还在 IOI 中取得了优异的成绩，展示了其在复杂算法问题上的能力。在 Codeforces 和 AIME 预选赛中的表现也证明了 o1 在多个学科上的显著成绩提升。

根据 OpenAI 官方说法，ChatGPT Plus 和 Team 用户最早可在几个小时内体验到 o1 系列模型。在发布时，o1-preview 限制为每周 30 条消息，o1-mini 每周 50 条。API 访问权限将首先给 Tier 5 级用户，也就是已经在 OpenAI API 上花费超过 1000 美元的人。