Nvidia 被曝每天抓取 YouTube 和 Netflix 数据，谷歌奈飞强烈反对

2024 年 8 月 6 日，Nvidia 的 GPU 在视频生成领域的弱点成为了新闻焦点。根据《The Information》的报道，Nvidia 的 GPU 在处理视频生成模型的内存需求方面存在显著不足。即使是其 H100s，也无法满足视频生成模型所需的庞大数据量。Luma AI 的联合创始人 Amit Jain 指出，视频生成模型的训练数据可以轻松达到 PB 级别，而语言模型仅需几百 TB。

与此同时，Nvidia 还面临着数据抓取事件的指控。根据 404Media 的报道，Nvidia 被曝每天从 YouTube、Netflix 等平台抓取大量视频数据，用于训练其 AI 模型。泄露的内部文件显示，Nvidia 的员工被默许使用开源工具 yt-dlp 从这些平台抓取数据，甚至使用虚拟机刷新 IP 地址以避免被屏蔽。

Nvidia 对此回应称，他们的做法完全合法，并符合版权法的条文和精神。Nvidia 表示，版权法保护特定的表达方式，但不保护事实、想法、数据或信息。任何人都可以自由地从其他来源了解事实、想法、数据或信息，并用它来表达自己的观点。合理使用还保护将作品用于变革性目的的能力，例如模型训练。

谷歌和奈飞对此表示强烈反对。谷歌指出，如果 OpenAI 用 YouTube 视频来训练其 AI 模型，那么明显违反了 YouTube 的使用条款。奈飞则表示，他们并未与 Nvidia 达成内容提取协议，而且该平台的服务条款不允许抓取内容。

除了数据抓取事件，Nvidia 的新 AI 芯片发布也遇到了麻烦。根据腾讯科技的报道，Nvidia 的新款 AI 芯片因设计缺陷将推迟至少三个月发布。这一延误预计将对包括 Meta、谷歌及微软在内的多家大客户造成影响，这些客户已预订了价值数百亿美元的该系列芯片。

Nvidia 于今年 3 月正式推出了 Blackwell 系列，计划于年内实现大规模出货。然而，设计缺陷导致这一进程受阻。Nvidia 正携手其芯片制造商台积电，进行新一轮的测试生产，以克服当前的技术障碍。预计 Blackwell 芯片的大规模出货将推迟至明年第一季度。