Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Mistral Large 2 在 Aidan-Bench 基准测试中击败 Claude 3.2 Sonnet,位列榜首

Mistral Large 2 在 Aidan-Bench 基准测试中击败 Claude 3.2 Sonnet,位列榜首

2024-08-07

2024 年 8 月 7 日,Mistral Large 2 在 LMSYS 大模型竞技场中紧随 Claude 3.2 Sonnet 和 GPT-4o-mini,位列第三。在另一个名为 Aidan-Bench 的基准测试中,Mistral Large 2 击败了众多大模型,包括 Claude 3.2 Sonnet,位列榜首。Aidan-Bench 从创造力、可靠性、上下文注意力和指令遵循能力等多个维度比较大型语言模型的能力。

Aidan-Bench 基准测试的设计旨在全面评估大型语言模型(LLMs)的多方面能力。测试过程包括提出一系列复杂的问题,涵盖从历史事件解释到未来设计方案的广泛主题。例如,测试人员可能会问:“解释日本失去的十年”、“你如何使用砖块和毯子?” 等。这些问题不仅考察模型的知识储备,还评估其创造力和逻辑推理能力。

在测试过程中,模型需要生成答案,直到出现以下情况之一时停止:一个答案明显不连贯(由另一个 LLM 判断),或一个答案与之前的答案相似(由嵌入模型判断)。这种方法确保了测试的严谨性和结果的可靠性。最终,研究人员将大模型答案的嵌入向量带入数学公式,综合评估模型的各项性能。

在 Aidan-Bench 基准测试中,Mistral Large 2 击败了包括 Claude 3.2 Sonnet 在内的众多大模型,位列榜首。具体来看,Mistral Large 2 在创造力、可靠性、上下文注意力和指令遵循能力等多个维度上均表现优异。例如,在回答 “解释日本失去的十年” 这一问题时,Mistral Large 2 不仅提供了详细的历史背景,还分析了经济和社会因素,展示了其深厚的知识储备和逻辑推理能力。

此外,Aidan-Bench 的测试结果还显示,Mistral Large 2 在指令遵循能力方面表现尤为突出。在回答 “如何重新设计学校,让学生为迎接 22 世纪做好准备?” 这一问题时,Mistral Large 2 提出了多项教育改革方案,包括引入更多的科技课程、加强跨学科合作以及注重学生的个性化发展。

Mistral Large 2 的技术细节是其在众多基准测试中表现的关键。该模型于 2024 年 7 月 24 日发布,拥有 128,000 个 tokens 的上下文窗口,支持多种语言和 80 多种编程语言。其参数量为 1230 亿,专为单节点推理设计,能够在单个节点上以大量吞吐量运行。此外,Mistral Large 2 还配备了增强的函数调用和检索功能,能够熟练执行并行和顺序函数调用,帮助构建更复杂的商业应用。

与其他大模型相比,Mistral Large 2 在多个方面具有优势。首先,在上下文窗口大小方面,Mistral Large 2 的 128,000 个 tokens 远超许多竞争对手,如 Meta 的 Llama 3.1 405B 和 OpenAI 的 GPT-4o mini。这使得 Mistral Large 2 在处理长文本和复杂任务时具有更大的优势。

其次,在参数量方面,Mistral Large 2 的 1230 亿参数虽然不及一些超大模型,但其优化的架构和高效的推理能力使其在性能上并不逊色。例如,在代码生成和数学推理方面,Mistral Large 2 的表现与 Llama 3.1 405B 相当,甚至在某些任务上有所超越。

此外,Mistral Large 2 在增强的函数调用和检索功能方面也表现良好。这些功能使得模型能够熟练执行并行和顺序函数调用,帮助构建更复杂的商业应用。例如,在回答 “提出一个解决洛杉矶交通问题的方案” 这一问题时,Mistral Large 2 不仅提出了多种解决方案,还详细分析了每种方案的可行性和潜在影响。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5