凌晨三点,阿里巴巴发布了一款新一代视觉推理模型 QVQ-Max,这款模型突破性地实现了对图像和视频的深度理解与推理能力。作为 QVQ-72B-Preview 的升级版,QVQ-Max 针对传统 AI 在视觉信息处理上的不足进行了大幅优化,增强了从视觉感知到认知推理的能力。
阿里巴巴表示,QVQ-Max 不仅能够「看懂」图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max 都表现出了不俗的能力。
那么,QVQ-Max 到底有什么过人之处?为何在 AI 领域引起如此广泛关注?据阿里官方介绍,这款模型的核心能力可以总结为三个方面:
首先是细致观察能力。QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以分析手掌图像进行性格特征推断,支持多图对比识别季节差异并解析画面细节。
其次是深入推理能力。仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。在数学推理测试中,该模型能准确发现数字规律,展现出强大的思考能力。技术层面上,研究人员发现随着思考过程 token 量的增加,模型在 MathVision 数学基准测试中的准确率呈持续提升趋势。
第三是灵活应用能力。除了分析和推理,QVQ-Max 还能完成设计插图、生成短视频剧本等内容,甚至用文学化语言描述手绘视频创作过程。它能根据用户的需求创建角色扮演内容,展现出超越传统 AI 模型的创造力。
QVQ-Max 的应用范围很广,无论是在学习、工作还是日常生活中都能派上用场。作为职场工具,它可以协助完成数据分析、信息整理、编程写代码等任务;作为学习助手,它可以帮助解答数学、物理等科目的难题,尤其是那些配有图表的题目;作为生活小帮手,它能根据你的衣柜照片推荐穿搭方案,或者根据食谱图片指导你如何烹饪一道新菜。
目前,用户已可以通过 Qwen Chat 平台体验 QVQ-Max 的能力。只需上传任意图片或视频,提出问题,并点击「Thinking」按钮,即可使用其推理能力。初步反馈显示,用户对其推理速度和准确性普遍给予好评。
值得一提的是,阿里巴巴作为一家以电子商务和云计算为核心业务的科技企业,近年来不断加大对人工智能领域的研发投入。QVQ-Max 的发布恰逢阿里巴巴近期在 AI 领域的密集布局,进一步巩固了其在全球 AI 竞赛中的地位。
阿里巴巴表示,这只是该模型演化过程中的一个阶段,未来还将持续优化其性能并扩展功能。随着 QVQ-Max 的发布,阿里巴巴不仅为 AI 社区带来了新的研究方向,也为普通用户提供了更多探索智能技术的机会。在全球 AI 竞争日益激烈的背景下,这一模型的亮相无疑为行业注入了新的活力。