OpenAI 发布新 AI 模型 o1，科学推理能力媲美博士生！

OpenAI 于 2024 年 9 月 12 日发布了其最新的 AI 模型 o1 以及较小且更便宜的 o1-mini 版本。该模型能够在科学、编码和数学等复杂任务中进行推理，并解决比以往更难的问题。初步测试显示，o1 模型在物理、化学和生物学任务上的表现与博士生相当，在国际数学奥林匹克资格考试中得分为 83%，远高于 GPT-4o 的 13%。目前，o1 模型已向 ChatGPT Plus 和 Team 用户开放，未来将向所有 ChatGPT 用户提供。

OpenAI 的新模型 o1 被设计为能够进行复杂推理和解决难题的 AI 系统。与前代模型相比，o1 在处理问题时会花费更多时间进行思考。OpenAI 在其网站上表示，通过训练，这些模型学会了精炼其思维过程，尝试不同的策略，并识别错误。o1 模型的应用场景包括医疗研究人员用于注释细胞测序数据、物理学家用于生成数学公式以及软件开发人员。

当前的 AI 系统主要通过统计生成响应，而不是实际 “思考” 问题。例如，当 Engadget 尝试让 ChatGPT 和其他 AI 聊天机器人解决《纽约时报》的拼字游戏时，它们产生了无意义的结果。相比之下，o1 模型被设计为能够进行复杂问题解决和逻辑思维的新型 AI 模型。在一篇详细介绍新模型的博客文章中，OpenAI 表示，o1 在物理、化学和生物学等挑战性基准任务上的表现与博士生相当，并在数学和编码方面表现出色。例如，其当前的旗舰模型 GPT-4o 在国际数学奥林匹克资格考试中仅解决了 13% 的问题，而 o1 解决了 83%。

新模型不包括网页浏览或上传文件和图像的能力。据《The Verge》报道，与 GPT-4o 相比，它在处理提示时显著较慢。尽管有更多时间考虑其输出，o1 仍未解决 “幻觉” 问题 —— 这是指 AI 模型编造信息的现象。OpenAI 的首席研究官 Bob McGrew 告诉《The Verge》：“我们不能说我们解决了幻觉问题。”

o1 模型仍处于初期阶段。OpenAI 称其为 “预览版”，并从今天开始仅向付费的 ChatGPT 客户开放，每周限制用户提问的数量。此外，OpenAI 还推出了 o1-mini，这是一个精简版，特别适用于编码。

除了 o1-preview，OpenAI 还发布了一款名为 o1-mini 的小型、经济实惠的模型，专为需要高级编码能力但不需要广泛世界知识的开发者设计。o1-mini 的价格比 o1-preview 便宜 80%。从今天开始，ChatGPT Plus 和 Team 用户可以从模型选择器中手动选择 o1-preview 和 o1-mini，o1-preview 的消息限制为 30 条，而 o1-mini 为 50 条。API 用户在最高使用级别中也可以开始原型开发，尽管某些功能如函数调用和流式传输尚不可用。

o1-mini 虽然是 o1 的精简版，但在编码任务中表现尤为出色。OpenAI 表示，o1-mini 特别适用于需要高效编码的场景。与 o1 相比，o1-mini 在处理复杂科学和数学问题时可能不如 o1，但在编码任务中表现出色。

o1-mini 也有其局限性。与 o1-preview 一样，o1-mini 目前不支持网页浏览、图像生成和文件上传等功能。