用户警告频发，OpenAI o1 模型的思维链为何成禁区？

近日，OpenAI 发布了其最新的人工智能模型 o1，该模型以其复杂的推理能力为主要特点。用户在尝试获取 o1 模型的完整思维链时，纷纷收到了 OpenAI 的警告邮件，警告内容包括可能撤销使用资格。用户反馈显示，只要提示词中包含 “reasoning trace” 或 “show your chain of thought” 等关键词，便会触发警告。OpenAI 解释称，隐藏模型的完整思维过程是为了内部监测和安全考虑。

o1 模型能够处理科学、编码和数学等领域的复杂任务。根据 OpenAI 的介绍，o1 模型在回答问题之前会花费更多时间进行思考，生成一个内部的长 “思维链”，以此来提高多步骤问题的解决能力。OpenAI 表示，o1 模型在国际数学奥林匹克资格考试中的得分为 83%，远高于 GPT-4o 的 13%。此外，o1 在 Codeforces 编程比赛中达到了第 89 个百分位。

在基准测试中，o1 模型的表现也引起了广泛关注。OpenAI 表示，o1 模型在物理、化学和生物学任务上的表现与博士生相当，尤其在数学和编码领域表现突出。OpenAI 还提到，o1 模型在一些具有挑战性的基准任务中表现优异，例如在 GPQA-diamond 测试中，o1 模型的表现超过了人类专家。

o1 模型的应用场景非常广泛，特别是在科学研究、编程和数学领域。OpenAI 表示，o1 模型可以帮助医疗研究人员注释细胞测序数据，帮助物理学家生成量子光学所需的复杂数学公式，以及帮助各个领域的开发人员构建和执行多步骤工作流程。例如，OpenAI 展示了一个使用 o1 模型编写的找松鼠的网页游戏，这个游戏的逻辑相对复杂，更考验 o1 模型的逻辑推理能力。

除了 o1 模型，OpenAI 还发布了一个更小且更便宜的版本 ——o1-mini。o1-mini 模型在响应质量上有所妥协，以实现更好的成本效益。OpenAI 表示，o1-mini 模型特别适合需要推理但不需要广泛世界知识的应用场景。作为较小版本，o1-mini 的成本比 o1-preview 低 80%。

尽管 o1 模型在推理能力上取得了进步，但它仍存在一些局限性。用户反馈显示，o1 模型在某些情况下会产生 “幻觉”，即生成看似合理但实际上并不准确的信息。此外，o1 模型在回答问题时花费的时间较长，这也引起了一些用户的不满。