凌晨三点阿里放大招！QVQ-Max 视觉 AI 既解数学题又会穿搭推荐

凌晨三点，阿里巴巴发布了一款新一代视觉推理模型 QVQ-Max，这款模型突破性地实现了对图像和视频的深度理解与推理能力。作为 QVQ-72B-Preview 的升级版，QVQ-Max 针对传统 AI 在视觉信息处理上的不足进行了大幅优化，增强了从视觉感知到认知推理的能力。

阿里巴巴表示，QVQ-Max 不仅能够「看懂」图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。从数学题到生活小问题，从编程代码到艺术创作，QVQ-Max 都表现出了不俗的能力。

那么，QVQ-Max 到底有什么过人之处？为何在 AI 领域引起如此广泛关注？据阿里官方介绍，这款模型的核心能力可以总结为三个方面：

首先是细致观察能力。QVQ-Max 对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素。比如，它可以分析手掌图像进行性格特征推断，支持多图对比识别季节差异并解析画面细节。

其次是深入推理能力。仅仅识别出图片里的内容还不够，QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。在数学推理测试中，该模型能准确发现数字规律，展现出强大的思考能力。技术层面上，研究人员发现随着思考过程 token 量的增加，模型在 MathVision 数学基准测试中的准确率呈持续提升趋势。

第三是灵活应用能力。除了分析和推理，QVQ-Max 还能完成设计插图、生成短视频剧本等内容，甚至用文学化语言描述手绘视频创作过程。它能根据用户的需求创建角色扮演内容，展现出超越传统 AI 模型的创造力。

QVQ-Max 的应用范围很广，无论是在学习、工作还是日常生活中都能派上用场。作为职场工具，它可以协助完成数据分析、信息整理、编程写代码等任务；作为学习助手，它可以帮助解答数学、物理等科目的难题，尤其是那些配有图表的题目；作为生活小帮手，它能根据你的衣柜照片推荐穿搭方案，或者根据食谱图片指导你如何烹饪一道新菜。

目前，用户已可以通过 Qwen Chat 平台体验 QVQ-Max 的能力。只需上传任意图片或视频，提出问题，并点击「Thinking」按钮，即可使用其推理能力。初步反馈显示，用户对其推理速度和准确性普遍给予好评。

值得一提的是，阿里巴巴作为一家以电子商务和云计算为核心业务的科技企业，近年来不断加大对人工智能领域的研发投入。QVQ-Max 的发布恰逢阿里巴巴近期在 AI 领域的密集布局，进一步巩固了其在全球 AI 竞赛中的地位。

阿里巴巴表示，这只是该模型演化过程中的一个阶段，未来还将持续优化其性能并扩展功能。随着 QVQ-Max 的发布，阿里巴巴不仅为 AI 社区带来了新的研究方向，也为普通用户提供了更多探索智能技术的机会。在全球 AI 竞争日益激烈的背景下，这一模型的亮相无疑为行业注入了新的活力。