比较两个数字的大小,这本该是数学世界里最简单的事情之一。可是,最近一个分明简单的问题却让多个 AI 大模型犯了难:9.11 和 9.9,哪个更大?第一财经的记者测试了 12 个大模型,结果显示包括 ChatGPT-4 在内的 8 个模型答错了,认为 9.11 比 9.9 大。
事情从综艺节目《歌手》的投票争议开始。7 月 13 日播出的最新一期《歌手》中,孙楠和外国歌手香缇莫的得票率分别是 13.8% 和 13.11%。网友质疑这两个数字的排名有问题,认为 13.11% 大于 13.8%。这场争议迅速在社交媒体上发酵,引发了广泛讨论。艾伦研究机构的林禹臣在 X 平台上发布了截图,显示 ChatGPT-4 在回答类似问题时认为 13.11 比 13.8 更大。随后,Scale AI 的提示工程师 Riley Goodside 变换了问法,测试了多个大模型,结果发现包括 ChatGPT-4、谷歌 Gemini Advanced 和 Claude 3.5 Sonnet 在内的多个大模型都答错了。
《第一财经》记者测试了 12 个大模型,结果发现其中 8 个都答错了 “9.11 和 9.9 哪个大” 这个问题。具体表现如下:
答对的模型:
- 阿里通义千问
- 百度文心一言
- Minimax
- 腾讯元宝
答错的模型:
- ChatGPT-4
- 字节豆包
- 月之暗面 kimi
- 智谱清言
- 零一万物万知
- 阶跃星辰跃问
- 百川智能百小应
- 商汤商量
这些大模型在回答中错误地比较了小数点后的数字,认为 9.11 大于 9.9。即便在限定为数学语境下,许多大模型仍然答错。这一现象揭示了大模型在处理简单数学问题时的不足。
大模型在处理 “9.11 和 9.9 哪个大” 这样简单数学问题时出错,原因主要包括以下几个方面:
- 表达方式的多样性:不同的人可能会用不同的方式表达这个问题,如 “9.11 和 9.9 哪个更大?” 和 “9.11 与 9.9 比较,哪个数值更高?” 表达方式的差异可能会影响 AI 的理解。
- 逻辑处理的复杂性:AI 模型在处理语言时,需要考虑上下文、语法等多种因素。有时,简单的逻辑问题在语言的复杂性面前也会显得复杂。
- 算法的局限:尽管 AI 模型在很多方面表现出色,但它们仍然有其局限性。在处理一些看似简单但实际上需要更深层次理解的问题时,可能会出现错误。
许多大模型在处理 “9.11 和 9.9 哪个大” 时出现了错误。例如,ChatGPT-4 认为 9.11 大于 9.9,而百度文心一言则通过六个步骤得出了正确答案。阿里通义千问使用 Python 代码解释器计算答案,而字节豆包则生成了一个直接响应,并举了个例子:“如果你有 9.90 美元和 9.11 美元,你会发现 9.90 美元更多。” 这些案例表明,大模型在处理简单数学问题时,往往依赖于其训练数据和算法的设计。
大模型在处理数学问题时表现不尽如人意,一个主要原因是训练数据中数学内容的占比太少。大模型主要从海量的自然语言数据中学习,但这些数据中涉及数学计算和逻辑推理的部分相对较少。因此,大模型在面对数学问题时,缺乏足够的训练和经验,容易犯错。另外,大模型的架构和运行机制也对其数学能力有一定限制。大多数大模型基于 Transformer 架构,主要任务是进行 “Next Token Prediction”,即通过预测下一个词元来生成文本。这种机制在处理自然语言时非常有效,但处理数学问题时却显得有些捉襟见肘。大模型不会像人类一样直接算术计算,而是通过概率模型来预测答案,这使得它们在处理简单的数学问题时也可能出错。
提高大模型的数学能力,关键在于提供高质量的数学训练数据。增加数学相关数据的比例,并进行针对性的训练,可以显著提升其数学计算和逻辑推理表现。例如,通义千问通过加入高质量的数学数据进行训练,使得在处理数学问题时更加准确。另一个有效的方法是集成外部工具,如计算器和代码执行器。这些工具可以帮助大模型在处理复杂数学问题时,提供更准确的计算结果。例如,腾讯混元团队提到,通过集成计算器等外部工具,可以大幅提高大模型解决数学问题的准确性和效率。