小米大模型团队采用 DeepSeek-R1 的强化学习算法对阿里 Qwen2-Audio-7B 模型进行优化,仅使用 3.8 万条训练数据便在 MMAU 评测中取得 64.5% 的准确率,较原模型提升 31%,超越 GPT-4o 近 10 个百分点。MMAU 评测集包含一万条涵盖语音、环境声和音乐的音频样本,人类专家准确率为 82.23%,该成绩验证了小模型在复杂音频任务中的潜力。
研究初期使用清华大学 AVQA 数据集进行监督微调时,模型准确率仅从 49.2% 提升至 51.8%。转用 DeepSeek-R1 的 GRPO 算法后,模型通过试错反馈机制自主进化,在相同数据量下准确率跃升至 64.5%。卡内基梅隆大学研究指出,当任务存在生成答案与验证答案的难度差时,强化学习比传统监督学习更具优势。在音频问答场景中,生成正确答案的难度显著高于验证答案,强化学习的实时反馈能更快缩小答案搜索空间。
实验中出现的反直觉现象引发关注:强制模型输出思维链时准确率下降至 61.1%,表明显式推理过程可能干扰模型训练。当前强化学习策略尚未充分挖掘模型的推理能力,训练过程中对思维链的引导存在优化空间。
该研究揭示三个关键结论:强化学习在小数据量(3.8 万条)的表现超过监督学习在大数据量(57 万条)的结果;7B 参数模型通过算法优化可匹敌千亿级模型的推理能力;隐式推理训练比显式思维链更有效。团队已将完整训练代码、模型参数和技术报告开源,包括基于 Hugging Face 的预训练模型和在线演示系统。