2024 年 12 月 9 日,NVIDIA 推出了 NVILA 视觉语言模型系列,旨在提升视觉处理能力。在对比现有模型如 LLaVa OneVision、GPT-4o Mini 及 Llama 3.2 后,NVILA 进行了优化,重点在于降低训练成本和内存需求。
NVILA 引入了开放视觉语言模型(VLMs)体系,改善了效率和准确性。该模型采用 “规模后压缩” 策略,优化了空间和时间分辨率,压缩视觉 tokens 以减少计算量。这提高了其在高分辨率图像和长视频处理上效率。在其生命周期内,包括训练、微调到部署各阶段,提升了效率:训练成本减少 4.5 倍、微调内存减少 3.4 倍,解码和预填充延迟分别降低了 1.6 至 2.8 倍。在图像和视频基准测试中表现良好。
NVILA 应用广泛,涉及领域如机器人导航和医学影像诊断,并具有时间定位和集成专家模块的 NVILA-M3 框架。NVIDIA 计划开放 NVILA 源码和模型,以便于研究和商业应用的进一步发展。其开源策略希望鼓励开发者和研究人员参与改进和扩展。要查看相关项目,请访问 NVIDIA 开源平台.