英伟达 Cosmos 项目：每天抓取相当于 80 年视觉数据！

英伟达正在进行一个名为 “Cosmos” 的项目，最近因几份内部文件的泄露引起了广泛关注。这个项目由研究副总裁刘洺堉领导，目标是打造视频基础模型。这些泄露的文件显示，英伟达的员工每天从 YouTube、奈飞等平台抓取大量数据，而这些行为并未获得授权。抓取的数据量之大，相当于一个人 80 年能感知到的视觉数据。

Cosmos 项目通过整合光传输、物理和智能模拟，应用场景涵盖了 Omniverse 3D 世界生成器、自动驾驶汽车系统和数字人产品。

**Omniverse 3D 世界生成器 **：Cosmos 模型将用于生成 3D 世界，适合游戏开发、虚拟现实和电影制作。通过模拟光传输和物理现象，这个生成器能够创建虚拟环境。
** 自动驾驶汽车系统 **：在自动驾驶领域，Cosmos 模型将提升车辆的感知和决策能力。通过模拟复杂的交通场景和环境变化，自动驾驶系统可以在虚拟环境中进行大量训练。
** 数字人产品 **：Cosmos 模型还会用于创建数字人，这些数字人可以应用于虚拟助手、娱乐和教育等多个领域。通过模拟人类的面部表情和动作，数字人产品将提供更加自然和互动的用户体验。

几份内部文件的泄露显示，英伟达员工被默许每天在网络上抓取未经授权的数据。这些数据包括 YouTube 视频、奈飞内容等。员工使用 yt-dlp 等工具，通过虚拟机刷新 IP 地址来规避平台的反爬虫机制。这种行为违反了平台的使用条款。谷歌和奈飞都认为英伟达的行为违反了他们的平台服务条款。谷歌明确指出，YouTube 的使用条款禁止未经授权抓取视频内容。奈飞也表示，他们没有与英伟达达成任何内容提取协议，且平台的服务条款也明确禁止抓取内容。

在英伟达的 Cosmos 项目中，数据工厂的建设是一个关键环节。这个数据工厂每天能产生相当于人类一生视觉体验的训练数据。而数据管道的设计与实现则确保了这些数据能高效地被收集、处理和存储，为模型训练打下基础。Cosmos 项目使用了多个大型数据集进行训练，包括 Ego-Exo4D、Ego4D 和 HOI4D 等。这些数据集涵盖了多种场景和视角，确保模型能在不同应用中表现。通过多种配置的训练，Cosmos 项目的模型能够应用于 Omniverse 3D 世界生成器、自动驾驶汽车系统和数字人产品等多个领域。