Chatbot Arena 推出数学和指令跟随竞技场，评测大语言模型能力

Chatbot Arena 最近上线了两个全新竞技场：数学竞技场和指令跟随（Instruction-Following, IF）竞技场，主要是为了评估大语言模型（LLM）的逻辑水平和解决实际问题的能力。数据显示，IF 竞技场收集了 50 万个投票，占总投票数的 35%，而数学竞技场则收集了 18 万个投票，占 13%。

在这些新竞技场中，Claude 3.5 Sonnet 在数学竞技场中排名第一。而在 IF 竞技场中，Claude 3.5 和 GPT-4o 并列第一。DeepSeek-coder 成为排名第一的开源模型。

Chatbot Arena 的评测机制采用了 Elo 评分系统，这个系统在国际象棋等竞技活动中广泛应用。通过众包和匿名随机对战的方式，用户在不知情的情况下对两个模型的回答进行投票，这样减少了偏见，也避免了刷榜的可能性，确保了评测结果的公正和客观。

访问 Chatbot Arena 了解更多信息并参与评测。