Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Chatbot Arena 推出数学和指令跟随竞技场,评测大语言模型能力

Chatbot Arena 推出数学和指令跟随竞技场,评测大语言模型能力

2024-07-10

Chatbot Arena 最近上线了两个全新竞技场:数学竞技场和指令跟随(Instruction-Following, IF)竞技场,主要是为了评估大语言模型(LLM)的逻辑水平和解决实际问题的能力。数据显示,IF 竞技场收集了 50 万个投票,占总投票数的 35%,而数学竞技场则收集了 18 万个投票,占 13%。

在这些新竞技场中,Claude 3.5 Sonnet 在数学竞技场中排名第一。而在 IF 竞技场中,Claude 3.5 和 GPT-4o 并列第一。DeepSeek-coder 成为排名第一的开源模型。

Chatbot Arena 的评测机制采用了 Elo 评分系统,这个系统在国际象棋等竞技活动中广泛应用。通过众包和匿名随机对战的方式,用户在不知情的情况下对两个模型的回答进行投票,这样减少了偏见,也避免了刷榜的可能性,确保了评测结果的公正和客观。

访问 Chatbot Arena 了解更多信息并参与评测。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5