2024 年 8 月 8 日,阿里巴巴发布了基于 Qwen2 的大语言模型系列 ——Qwen2-Math-1.5B/7B/72B,专注于数学解题。Qwen2-Math 在多个数学基准测试中表现良好,尤其是 Qwen2-Math-72B-Instruct,超越了包括 GPT-4o 在内的模型。该系列模型通过在大规模高质量的数学专用语料库上进行预训练,并结合指令微调和奖励模型优化,提升了数学推理和计算能力。
Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在设计的数学专用语料库上进行预训练。该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。通过这些数据,Qwen2-Math 能够在数学解题任务中表现良好。
在指令微调模型方面,千问团队首先基于 Qwen2-Math-72B 训练了一个数学专用的奖励模型。然后,将这个密集的奖励信号与一个二元信号结合,该二元信号指示模型是否正确回答了问题。这个组合信号被用作监督来通过拒绝采样构建 SFT 数据,并在此 SFT 模型的基础上进一步使用 GRPO 来优化模型。
在评测方面,Qwen2-Math 在多个数学基准测试中表现良好。除了常用的基准评测,如 GSM8K 和 MATH 之外,团队还加入了更具挑战性的考试以检测 Qwen2-Math-Instruct 的能力,例如 OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024 以及 AMC2023。对于中文的数学评测集,使用了 CMATH、2024 年中国高考数学题以及 2024 年中国中考数学题。
评测结果表明,Qwen2-Math-72B-Instruct 在 Math 上的表现超越了包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。具体来说,Qwen2-Math 在复杂多步逻辑推理和高级数学问题的解决上表现尤为突出。例如,在 GSM8K 测试中,Qwen2-Math-72B-Instruct 的准确率达到了 94.0%。
此外,Qwen2-Math 还在去除数据污染方面做了大量工作。在预训练和微调数据集上都进行了去污染处理,移除了与测试集有显著重叠的样本。具体来说,对于预训练数据,团队针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。
这些技术细节和评测结果表明,Qwen2-Math 在数学解题能力上超越了现有的开源和闭源模型,并在数据处理和模型优化方面做出了贡献。
Qwen2-Math 的发布在科技界、教育和科研领域引发了关注。该模型的数学解题能力使其在多个应用场景中展现出潜力。
在教育领域,Qwen2-Math 可以用于辅助教学和学生自学。通过 Qwen2-Math,教师可以设计数学题目,并为学生提供详细的解题步骤和解释。这可以提高教学效率,帮助学生理解复杂的数学概念。
在科研领域,Qwen2-Math 可以用于解决复杂的数学问题和进行数学研究。研究人员可以利用 Qwen2-Math 的推理能力,找到问题的解决方案,并进行进一步的研究。
此外,Qwen2-Math 还可以应用于金融、工程等需要复杂数学计算的领域。在金融领域,Qwen2-Math 可以用于风险评估、投资组合优化等任务,提高金融分析的准确性和效率。在工程领域,Qwen2-Math 可以用于优化设计、模拟和分析复杂系统,帮助工程师解决实际问题。

