Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

OpenAI 发布 o1 系列,博士物理问题得分 92.8,GPT-4o 仅 59.5

2024-09-132024-09-13

OpenAI 凌晨发布了他们的最新 AI 模型——o1 系列,这消息一下子就炸开了锅。o1 系列在解决复杂问题方面表现出色,特别是在博士水平的物理问题上,得分高达 92.8 分,远超 GPT-4o 的 59.5 分。o1 系列是 OpenAI 首个采用强化学习训练的模型,通过构建长思维链来增强推理能力。

o1 系列包含三个型号:o1、o1-preview 和 o1-mini。o1 是最强大的版本,目前尚未公开;o1-preview 是早期版本,已提供给 ChatGPT 的付费用户和 API 用户;o1-mini 则适用于需要推理但不需要广泛世界知识的任务。

在性能测试中,o1 系列展现了显著的能力。在 2024 年国际信息学奥赛(IOI)中,o1 的微调版本在每题尝试 50 次的条件下取得了 213 分,相当于人类选手中前 49% 的成绩。如果每题尝试 10000 次,o1 可以获得 362.14 分,超过金牌选手的门槛。此外,o1 在 Codeforces 竞争性编程问题中排名前 89%,并在美国数学奥林匹克(AIME)预选赛中跻身前 500 名。

与 GPT-4o 相比,o1 在多个学科上都有显著的成绩提升。OpenAI 的科学家 Noam Brown 分享了个人测试结果,显示 o1-preview 能够解决之前所有大模型都无法解决的逻辑难题。

o1 系列的特点在于其强化学习训练和长思维链技术。长思维链技术通过逐步解释推理过程,而不是直接给出答案,帮助模型进行推理。这种技术使得模型在回答问题时更像人类解题的过程。

在 AI 训练中,人工标注思维链既耗时又昂贵,因此强化学习成为了更实用的选择。强化学习让模型通过实践和试错自我学习,不断优化解决问题的方法。

o1 模型通过强化学习不断完善思考过程,学会识别和纠正错误,将复杂步骤分解为更简单的部分,并在遇到障碍时尝试新的方法。这种训练方式显著提升了 o1 的推理能力。

在实际应用中,o1 模型已在医疗、物理学和软件开发等领域展示了其能力。例如,在编写 Bash 脚本的编程任务中,o1-preview 通过拆解任务和明确步骤,提高了代码的准确性和开发效率。

o1 模型还在 IOI 中取得了优异的成绩,展示了其在复杂算法问题上的能力。在 Codeforces 和 AIME 预选赛中的表现也证明了 o1 在多个学科上的显著成绩提升。

根据 OpenAI 官方说法,ChatGPT Plus 和 Team 用户最早可在几个小时内体验到 o1 系列模型。在发布时,o1-preview 限制为每周 30 条消息,o1-mini 每周 50 条。API 访问权限将首先给 Tier 5 级用户,也就是已经在 OpenAI API 上花费超过 1000 美元的人。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5