1 月 21 日,月之暗面发布了最新的 Kimi k1.5 多模态思考模型,并首次公开其训练技术报告。该模型在多个基准测试中实现了突出表现,在短思考模式下明显超越当前领先的 GPT-4o 和 Claude 3.5 Sonnet 等模型。
在 short-CoT 模式下,Kimi k1.5 模型的数学、代码、视觉多模态和通用能力大幅度超越了现有的短思考 SOTA 模型,包括 GPT-4o 和 Claude 3.5 Sonnet。数据显示,k1.5 在 AIME 测试中达到 60.8 分,MATH500 达到 94.6 分,LiveCodeBench 达到 47.3 分,整体领先幅度达到 550%。
在 long-CoT 模式下,k1.5 模型同样表现不俗。它在 AIME 测试中获得 77.5 分,MATH500 获得 96.2 分,Codeforces 达到 94 百分位,MathVista 达到 74.9 分。这些成绩标志着 k1.5 已经达到了 OpenAI o1 正式版的技术水平。
月之暗面团队在技术报告中公开了 k1.5 模型的关键创新。首先是长上下文扩展,通过部分展开技术提升了训练效率,并发现上下文长度的增加能持续提升模型性能。其次是改进的策略优化方法,建立了简洁的强化学习框架。
在训练方面,k1.5 采用了文本与视觉数据的联合训练方式,使模型具备了联合推理两种模态的能力。为了提升短链思维推理能力,团队还提出了 long2short 方法,利用 Long-CoT 技术改进 Short-CoT 模型。
k1.5 多模态思考模型的预览版即将灰度上线 Kimi.com 网站和 Kimi 智能助手 App。用户可以通过模型切换按钮体验这一全新升级的模型。它的出现,标志着 AI 在多模态推理能力上迈出了重要一步。不过也要注意到,在处理部分依赖图形理解的几何图形题时,模型仍然存在一定挑战。这提示我们,AI 技术发展任重而道远。