2024 年 8 月 28 日,埃隆・马斯克宣布,特斯拉可以使用真实世界的视频来实现类似于扩散模型作为游戏引擎的研究成果。这一技术通过预测经典射击游戏《DOOM》的下一帧,能够获得一个 20 fps 的可玩游戏体验。特斯拉的视频生成技术通过使用真实世界的视频数据,利用扩散模型来预测下一帧,从而实现类似于游戏引擎的效果。这种方法能够生成高质量的视频,并在 20 fps 的帧率下提供流畅的游戏体验。
相比传统的游戏引擎,这种基于生成式 AI 的方法具有更高的灵活性和更低的开发成本。与其他技术相比,特斯拉的视频生成技术具有显著优势。例如,Google 的 GameNGen AI 也能够生成《DOOM》的游戏画面,但特斯拉的方法更注重真实世界的视频数据。
特斯拉自动驾驶软件总监 Ashok Elluswamy 在 CVPR2023 的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型,该模型基于神经网络,使用过去的视频和其他数据来预测未来。特斯拉的视频生成技术不仅可以应用于游戏开发,还可以广泛应用于自动驾驶、虚拟现实等领域。在自动驾驶方面,特斯拉可以利用生成的视频数据来训练其自动驾驶系统,提高系统的识别和决策能力。在虚拟现实领域,特斯拉的视频生成技术可以用于创建更加逼真的虚拟环境。
然而,特斯拉的视频生成技术也面临一些技术挑战。例如,生成高质量的视频需要大量的计算资源和数据存储空间。为了解决这些问题,特斯拉正在不断提升其 AI 硬件性能。在 2024 年股东大会上,埃隆・马斯克介绍了特斯拉的 AI 硬件升级计划。特斯拉的车载推理硬件将迎来重大升级,HW5.0(AI5.0)硬件性能将达到英伟达 B200 级别,功耗为 700-800W,预计在 18 个月后推出。此外,特斯拉计划在今年晚些时候分开 HW4.0 和 HW3.0 硬件的模型训练,HW4.0 的训练将在 Giga Texas 的 H100 集群上进行。

