Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

NVIDIA 的 NVILA 模型上线,训练成本大降 4.5 倍,视觉处理新时代来临!

2024-12-09

2024 年 12 月 9 日,NVIDIA 推出了 NVILA 视觉语言模型系列,旨在提升视觉处理能力。在对比现有模型如 LLaVa OneVision、GPT-4o Mini 及 Llama 3.2 后,NVILA 进行了优化,重点在于降低训练成本和内存需求。

NVILA 引入了开放视觉语言模型(VLMs)体系,改善了效率和准确性。该模型采用 “规模后压缩” 策略,优化了空间和时间分辨率,压缩视觉 tokens 以减少计算量。这提高了其在高分辨率图像和长视频处理上效率。在其生命周期内,包括训练、微调到部署各阶段,提升了效率:训练成本减少 4.5 倍、微调内存减少 3.4 倍,解码和预填充延迟分别降低了 1.6 至 2.8 倍。在图像和视频基准测试中表现良好。

NVILA 应用广泛,涉及领域如机器人导航和医学影像诊断,并具有时间定位和集成专家模块的 NVILA-M3 框架。NVIDIA 计划开放 NVILA 源码和模型,以便于研究和商业应用的进一步发展。其开源策略希望鼓励开发者和研究人员参与改进和扩展。要查看相关项目,请访问 NVIDIA 开源平台.

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5