Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

用户警告频发,OpenAI o1 模型的思维链为何成禁区?

2024-09-15

近日,OpenAI 发布了其最新的人工智能模型 o1,该模型以其复杂的推理能力为主要特点。用户在尝试获取 o1 模型的完整思维链时,纷纷收到了 OpenAI 的警告邮件,警告内容包括可能撤销使用资格。用户反馈显示,只要提示词中包含 “reasoning trace” 或 “show your chain of thought” 等关键词,便会触发警告。OpenAI 解释称,隐藏模型的完整思维过程是为了内部监测和安全考虑。

o1 模型能够处理科学、编码和数学等领域的复杂任务。根据 OpenAI 的介绍,o1 模型在回答问题之前会花费更多时间进行思考,生成一个内部的长 “思维链”,以此来提高多步骤问题的解决能力。OpenAI 表示,o1 模型在国际数学奥林匹克资格考试中的得分为 83%,远高于 GPT-4o 的 13%。此外,o1 在 Codeforces 编程比赛中达到了第 89 个百分位。

在基准测试中,o1 模型的表现也引起了广泛关注。OpenAI 表示,o1 模型在物理、化学和生物学任务上的表现与博士生相当,尤其在数学和编码领域表现突出。OpenAI 还提到,o1 模型在一些具有挑战性的基准任务中表现优异,例如在 GPQA-diamond 测试中,o1 模型的表现超过了人类专家。

o1 模型的应用场景非常广泛,特别是在科学研究、编程和数学领域。OpenAI 表示,o1 模型可以帮助医疗研究人员注释细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,以及帮助各个领域的开发人员构建和执行多步骤工作流程。例如,OpenAI 展示了一个使用 o1 模型编写的找松鼠的网页游戏,这个游戏的逻辑相对复杂,更考验 o1 模型的逻辑推理能力。

除了 o1 模型,OpenAI 还发布了一个更小且更便宜的版本 ——o1-mini。o1-mini 模型在响应质量上有所妥协,以实现更好的成本效益。OpenAI 表示,o1-mini 模型特别适合需要推理但不需要广泛世界知识的应用场景。作为较小版本,o1-mini 的成本比 o1-preview 低 80%。

尽管 o1 模型在推理能力上取得了进步,但它仍存在一些局限性。用户反馈显示,o1 模型在某些情况下会产生 “幻觉”,即生成看似合理但实际上并不准确的信息。此外,o1 模型在回答问题时花费的时间较长,这也引起了一些用户的不满。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5