英伟达正在进行一个名为 “Cosmos” 的项目,最近因几份内部文件的泄露引起了广泛关注。这个项目由研究副总裁刘洺堉领导,目标是打造视频基础模型。这些泄露的文件显示,英伟达的员工每天从 YouTube、奈飞等平台抓取大量数据,而这些行为并未获得授权。抓取的数据量之大,相当于一个人 80 年能感知到的视觉数据。
Cosmos 项目通过整合光传输、物理和智能模拟,应用场景涵盖了 Omniverse 3D 世界生成器、自动驾驶汽车系统和数字人产品。
- **Omniverse 3D 世界生成器 **:Cosmos 模型将用于生成 3D 世界,适合游戏开发、虚拟现实和电影制作。通过模拟光传输和物理现象,这个生成器能够创建虚拟环境。
- ** 自动驾驶汽车系统 **:在自动驾驶领域,Cosmos 模型将提升车辆的感知和决策能力。通过模拟复杂的交通场景和环境变化,自动驾驶系统可以在虚拟环境中进行大量训练。
- ** 数字人产品 **:Cosmos 模型还会用于创建数字人,这些数字人可以应用于虚拟助手、娱乐和教育等多个领域。通过模拟人类的面部表情和动作,数字人产品将提供更加自然和互动的用户体验。
几份内部文件的泄露显示,英伟达员工被默许每天在网络上抓取未经授权的数据。这些数据包括 YouTube 视频、奈飞内容等。员工使用 yt-dlp 等工具,通过虚拟机刷新 IP 地址来规避平台的反爬虫机制。这种行为违反了平台的使用条款。谷歌和奈飞都认为英伟达的行为违反了他们的平台服务条款。谷歌明确指出,YouTube 的使用条款禁止未经授权抓取视频内容。奈飞也表示,他们没有与英伟达达成任何内容提取协议,且平台的服务条款也明确禁止抓取内容。
在英伟达的 Cosmos 项目中,数据工厂的建设是一个关键环节。这个数据工厂每天能产生相当于人类一生视觉体验的训练数据。而数据管道的设计与实现则确保了这些数据能高效地被收集、处理和存储,为模型训练打下基础。Cosmos 项目使用了多个大型数据集进行训练,包括 Ego-Exo4D、Ego4D 和 HOI4D 等。这些数据集涵盖了多种场景和视角,确保模型能在不同应用中表现。通过多种配置的训练,Cosmos 项目的模型能够应用于 Omniverse 3D 世界生成器、自动驾驶汽车系统和数字人产品等多个领域。