2024 年 8 月 21 日,英伟达联合麻省理工学院、加州大学伯克利分校和得克萨斯大学奥斯汀分校的研究者推出了一种名为 LongVILA 的全栈解决方案。LongVILA 专为长上下文视觉语言模型(VLM)设计,集系统设计、模型训练策略和数据集构建于一体,支持多模态理解和长上下文处理,能够处理长文档和长视频等复杂任务。该解决方案通过序列并行技术优化内存使用,解决了现有系统在处理长上下文 VLM 时的效率和扩展性问题。
在系统设计方面,LongVILA 采用了序列并行技术,这种技术能够优化内存使用,解决了现有系统在处理长上下文 VLM 时的效率和扩展性问题。通过这种技术,LongVILA 能够处理长文档和长视频等复杂任务,提升了模型的处理能力和效率。
在模型训练策略方面,LongVILA 的训练流程分为五个阶段完成。各个阶段的主要任务分别如下:
- 在 Stage 1,只有多模态映射器可以训练,其他映射器被冻结。
- 在 Stage 2,研究者冻结了视觉编码器,并训练了 LLM 和多模态映射器。
- 在 Stage 3,研究者针对短数据指令遵循任务对模型全面进行微调,比如使用图像和短视频数据集。
- 在 Stage 4,研究者以持续预训练的方式,使用仅文本的数据集来扩展 LLM 的上下文长度。
- 在 Stage 5,研究者通过长视频监督微调来增强指令遵循能力。值得注意的是,所有参数在该阶段是可训练的。
在数据集构建方面,LongVILA 集成了多模态理解和长上下文处理的能力,能够处理长文档和长视频等复杂任务。通过大规模数据集的训练,LongVILA 能够在多种任务中展现出良好的性能。
LongVILA 的实际应用范围广泛,涵盖了视频内容分析、智能监控、自动驾驶等多个领域。在视频内容分析方面,LongVILA 能够对视频进行自动标注、分类和摘要生成,从而提高视频处理效率。在智能监控领域,LongVILA 可以实现对监控视频的实时分析,及时发现异常情况并进行预警。在自动驾驶领域,LongVILA 能够对道路场景进行感知和理解,为车辆提供导航和决策支持。
在性能表现方面,LongVILA 在多个基准任务中均达到了先进水平。尤其在视频问答方面,LongVILA 展现出了良好的性能,通过预先对齐视觉输入,LongVILA 还在图片理解的多个方面取得了进步,包括减少幻觉现象和提升 OCR 能力等。

