Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
**8 个 AI 大模型答错 9.11 和 9.9 的比较,为什么会这样?**

8 个 AI 大模型答错 9.11 和 9.9 的比较,为什么会这样?

2024-07-262024-07-26

比较两个数字的大小,这本该是数学世界里最简单的事情之一。可是,最近一个分明简单的问题却让多个 AI 大模型犯了难:9.11 和 9.9,哪个更大?第一财经的记者测试了 12 个大模型,结果显示包括 ChatGPT-4 在内的 8 个模型答错了,认为 9.11 比 9.9 大。

事情从综艺节目《歌手》的投票争议开始。7 月 13 日播出的最新一期《歌手》中,孙楠和外国歌手香缇莫的得票率分别是 13.8% 和 13.11%。网友质疑这两个数字的排名有问题,认为 13.11% 大于 13.8%。这场争议迅速在社交媒体上发酵,引发了广泛讨论。艾伦研究机构的林禹臣在 X 平台上发布了截图,显示 ChatGPT-4 在回答类似问题时认为 13.11 比 13.8 更大。随后,Scale AI 的提示工程师 Riley Goodside 变换了问法,测试了多个大模型,结果发现包括 ChatGPT-4、谷歌 Gemini Advanced 和 Claude 3.5 Sonnet 在内的多个大模型都答错了。

《第一财经》记者测试了 12 个大模型,结果发现其中 8 个都答错了 “9.11 和 9.9 哪个大” 这个问题。具体表现如下:

答对的模型:

  • 阿里通义千问
  • 百度文心一言
  • Minimax
  • 腾讯元宝

答错的模型:

  • ChatGPT-4
  • 字节豆包
  • 月之暗面 kimi
  • 智谱清言
  • 零一万物万知
  • 阶跃星辰跃问
  • 百川智能百小应
  • 商汤商量

这些大模型在回答中错误地比较了小数点后的数字,认为 9.11 大于 9.9。即便在限定为数学语境下,许多大模型仍然答错。这一现象揭示了大模型在处理简单数学问题时的不足。

大模型在处理 “9.11 和 9.9 哪个大” 这样简单数学问题时出错,原因主要包括以下几个方面:

  1. 表达方式的多样性:不同的人可能会用不同的方式表达这个问题,如 “9.11 和 9.9 哪个更大?” 和 “9.11 与 9.9 比较,哪个数值更高?” 表达方式的差异可能会影响 AI 的理解。
  2. 逻辑处理的复杂性:AI 模型在处理语言时,需要考虑上下文、语法等多种因素。有时,简单的逻辑问题在语言的复杂性面前也会显得复杂。
  3. 算法的局限:尽管 AI 模型在很多方面表现出色,但它们仍然有其局限性。在处理一些看似简单但实际上需要更深层次理解的问题时,可能会出现错误。

许多大模型在处理 “9.11 和 9.9 哪个大” 时出现了错误。例如,ChatGPT-4 认为 9.11 大于 9.9,而百度文心一言则通过六个步骤得出了正确答案。阿里通义千问使用 Python 代码解释器计算答案,而字节豆包则生成了一个直接响应,并举了个例子:“如果你有 9.90 美元和 9.11 美元,你会发现 9.90 美元更多。” 这些案例表明,大模型在处理简单数学问题时,往往依赖于其训练数据和算法的设计。

大模型在处理数学问题时表现不尽如人意,一个主要原因是训练数据中数学内容的占比太少。大模型主要从海量的自然语言数据中学习,但这些数据中涉及数学计算和逻辑推理的部分相对较少。因此,大模型在面对数学问题时,缺乏足够的训练和经验,容易犯错。另外,大模型的架构和运行机制也对其数学能力有一定限制。大多数大模型基于 Transformer 架构,主要任务是进行 “Next Token Prediction”,即通过预测下一个词元来生成文本。这种机制在处理自然语言时非常有效,但处理数学问题时却显得有些捉襟见肘。大模型不会像人类一样直接算术计算,而是通过概率模型来预测答案,这使得它们在处理简单的数学问题时也可能出错。

提高大模型的数学能力,关键在于提供高质量的数学训练数据。增加数学相关数据的比例,并进行针对性的训练,可以显著提升其数学计算和逻辑推理表现。例如,通义千问通过加入高质量的数学数据进行训练,使得在处理数学问题时更加准确。另一个有效的方法是集成外部工具,如计算器和代码执行器。这些工具可以帮助大模型在处理复杂数学问题时,提供更准确的计算结果。例如,腾讯混元团队提到,通过集成计算器等外部工具,可以大幅提高大模型解决数学问题的准确性和效率。

AI 日报

查看全部日报

  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%
  • 深度伪造鼻祖获 1750 万融资!Visa 等巨头已成客户

©2025 毫河风报 沪ICP备18012441号-5