Chatbot Arena 最近上线了两个全新竞技场:数学竞技场和指令跟随(Instruction-Following, IF)竞技场,主要是为了评估大语言模型(LLM)的逻辑水平和解决实际问题的能力。数据显示,IF 竞技场收集了 50 万个投票,占总投票数的 35%,而数学竞技场则收集了 18 万个投票,占 13%。
在这些新竞技场中,Claude 3.5 Sonnet 在数学竞技场中排名第一。而在 IF 竞技场中,Claude 3.5 和 GPT-4o 并列第一。DeepSeek-coder 成为排名第一的开源模型。
Chatbot Arena 的评测机制采用了 Elo 评分系统,这个系统在国际象棋等竞技活动中广泛应用。通过众包和匿名随机对战的方式,用户在不知情的情况下对两个模型的回答进行投票,这样减少了偏见,也避免了刷榜的可能性,确保了评测结果的公正和客观。
访问 Chatbot Arena 了解更多信息并参与评测。