NVIDIA 的 NVILA 模型上线，训练成本大降 4.5 倍，视觉处理新时代来临！

2024 年 12 月 9 日，NVIDIA 推出了 NVILA 视觉语言模型系列，旨在提升视觉处理能力。在对比现有模型如 LLaVa OneVision、GPT-4o Mini 及 Llama 3.2 后，NVILA 进行了优化，重点在于降低训练成本和内存需求。

NVILA 引入了开放视觉语言模型（VLMs）体系，改善了效率和准确性。该模型采用 “规模后压缩” 策略，优化了空间和时间分辨率，压缩视觉 tokens 以减少计算量。这提高了其在高分辨率图像和长视频处理上效率。在其生命周期内，包括训练、微调到部署各阶段，提升了效率：训练成本减少 4.5 倍、微调内存减少 3.4 倍，解码和预填充延迟分别降低了 1.6 至 2.8 倍。在图像和视频基准测试中表现良好。

NVILA 应用广泛，涉及领域如机器人导航和医学影像诊断，并具有时间定位和集成专家模块的 NVILA-M3 框架。NVIDIA 计划开放 NVILA 源码和模型，以便于研究和商业应用的进一步发展。其开源策略希望鼓励开发者和研究人员参与改进和扩展。要查看相关项目，请访问 NVIDIA 开源平台.