8 个 AI 大模型答错 9.11 和 9.9 的比较，为什么会这样？

比较两个数字的大小，这本该是数学世界里最简单的事情之一。可是，最近一个分明简单的问题却让多个 AI 大模型犯了难：9.11 和 9.9，哪个更大？第一财经的记者测试了 12 个大模型，结果显示包括 ChatGPT-4 在内的 8 个模型答错了，认为 9.11 比 9.9 大。

事情从综艺节目《歌手》的投票争议开始。7 月 13 日播出的最新一期《歌手》中，孙楠和外国歌手香缇莫的得票率分别是 13.8% 和 13.11%。网友质疑这两个数字的排名有问题，认为 13.11% 大于 13.8%。这场争议迅速在社交媒体上发酵，引发了广泛讨论。艾伦研究机构的林禹臣在 X 平台上发布了截图，显示 ChatGPT-4 在回答类似问题时认为 13.11 比 13.8 更大。随后，Scale AI 的提示工程师 Riley Goodside 变换了问法，测试了多个大模型，结果发现包括 ChatGPT-4、谷歌 Gemini Advanced 和 Claude 3.5 Sonnet 在内的多个大模型都答错了。

《第一财经》记者测试了 12 个大模型，结果发现其中 8 个都答错了 “9.11 和 9.9 哪个大” 这个问题。具体表现如下：

答对的模型：

阿里通义千问
百度文心一言
Minimax
腾讯元宝

答错的模型：

ChatGPT-4
字节豆包
月之暗面 kimi
智谱清言
零一万物万知
阶跃星辰跃问
百川智能百小应
商汤商量

这些大模型在回答中错误地比较了小数点后的数字，认为 9.11 大于 9.9。即便在限定为数学语境下，许多大模型仍然答错。这一现象揭示了大模型在处理简单数学问题时的不足。

大模型在处理 “9.11 和 9.9 哪个大” 这样简单数学问题时出错，原因主要包括以下几个方面：

表达方式的多样性：不同的人可能会用不同的方式表达这个问题，如 “9.11 和 9.9 哪个更大？” 和 “9.11 与 9.9 比较，哪个数值更高？” 表达方式的差异可能会影响 AI 的理解。
逻辑处理的复杂性：AI 模型在处理语言时，需要考虑上下文、语法等多种因素。有时，简单的逻辑问题在语言的复杂性面前也会显得复杂。
算法的局限：尽管 AI 模型在很多方面表现出色，但它们仍然有其局限性。在处理一些看似简单但实际上需要更深层次理解的问题时，可能会出现错误。

许多大模型在处理 “9.11 和 9.9 哪个大” 时出现了错误。例如，ChatGPT-4 认为 9.11 大于 9.9，而百度文心一言则通过六个步骤得出了正确答案。阿里通义千问使用 Python 代码解释器计算答案，而字节豆包则生成了一个直接响应，并举了个例子：“如果你有 9.90 美元和 9.11 美元，你会发现 9.90 美元更多。” 这些案例表明，大模型在处理简单数学问题时，往往依赖于其训练数据和算法的设计。

大模型在处理数学问题时表现不尽如人意，一个主要原因是训练数据中数学内容的占比太少。大模型主要从海量的自然语言数据中学习，但这些数据中涉及数学计算和逻辑推理的部分相对较少。因此，大模型在面对数学问题时，缺乏足够的训练和经验，容易犯错。另外，大模型的架构和运行机制也对其数学能力有一定限制。大多数大模型基于 Transformer 架构，主要任务是进行 “Next Token Prediction”，即通过预测下一个词元来生成文本。这种机制在处理自然语言时非常有效，但处理数学问题时却显得有些捉襟见肘。大模型不会像人类一样直接算术计算，而是通过概率模型来预测答案，这使得它们在处理简单的数学问题时也可能出错。

提高大模型的数学能力，关键在于提供高质量的数学训练数据。增加数学相关数据的比例，并进行针对性的训练，可以显著提升其数学计算和逻辑推理表现。例如，通义千问通过加入高质量的数学数据进行训练，使得在处理数学问题时更加准确。另一个有效的方法是集成外部工具，如计算器和代码执行器。这些工具可以帮助大模型在处理复杂数学问题时，提供更准确的计算结果。例如，腾讯混元团队提到，通过集成计算器等外部工具，可以大幅提高大模型解决数学问题的准确性和效率。