2024 年 8 月 21 日,初创公司 Hotshot 推出了一款新的人工智能模型,能够生成分辨率为 1280×720 像素的 10 秒视频片段。该模型现已公开预览,加入了市场上越来越多的 AI 视频生成器行列。Hotshot 去年曾推出一款面向消费者的 AI 图像生成应用程序,但现已转向视频生成领域。Hotshot 得到了 SV Angel、天使投资人 Lachy Groom 和 Reddit 联合创始人 Alexis Ohanian 的支持。
Hotshot 的新 AI 模型能够生成分辨率为 1280×720 像素的 10 秒视频片段。这一技术突破背后有着复杂的开发过程和技术细节。公司在几个月内开发了最新的视频生成模型,创建了三个不同的神经网络:核心 Hotshot 模型和另外两个帮助准备 AI 视频生成器训练数据集的神经网络。
在项目的第一阶段,Hotshot 收集了一个包含 6 亿个带有描述内容字幕的视频片段的库。它将这些视频片段与 10 亿张图像结合起来,创建了视频生成模型的训练数据集。Hotshot 团队成员 John Mullan、Duncan Crawbuck、Chaitu Aluru 和 Aakash Sastry 在博客文章中解释道:“我们知道我们需要将模型同时训练在图像和视频上,以利用公开可访问的图像数据比视频数据丰富得多的优势。”
在准备好自动编码器和字幕生成模型后,Hotshot 花了四个月时间训练其 AI 视频生成器。公司使用了来自 Nvidia Corp. 的数千个 H100 图形处理单元,在项目期间积累了数百万小时的处理时间。Hotshot 的工程师应用了几项优化措施,以减少训练运行的基础设施需求。公司将许多用于项目的文件存储在 bfloat16 格式中,该格式可以将 32 位数据压缩成 16 位以节省存储空间。此外,它提前进行了通常在训练过程中执行的一些计算,以更好地利用 Nvidia 芯片的处理能力。
公司为支持其视频生成器的开发而构建的第二个辅助 AI 模型是一个自动编码器。这是一种可以获取数据(在这种情况下是视频)并删除不必要细节的算法。删除多余信息可以降低存储需求,从而降低成本。Hotshot 发现市场上现有的字幕生成模型不符合其要求。为此,公司采用了其中一个现有模型,并在包含 30 万个手动创建字幕的视频片段的训练数据集上对其进行了定制。“在几周内,我们有了一个我们满意的视频字幕生成器,用于注释我们数亿个视频样本,”Hotshot 团队详细说明。
Hotshot 的新 AI 作为其网站上的免费视频生成服务的一部分可供使用。公司还计划通过应用程序编程接口向开发者提供该模型。除了 Hotshot,OpenAI 和 Runway ML 等公司也提供类似的神经网络,能够根据用户提示生成短片。OpenAI 的 Sora 模型和 Runway ML 的 Gen-2 模型在市场上已经取得了一定的成功。
在市场竞争方面,Hotshot 的新模型将面临来自其他公司的激烈竞争。OpenAI 的 Sora 模型已经在市场上取得了一定的成功,其生成的视频质量和长度都得到了用户的认可。Runway ML 的 Gen-2 模型也在商业化探索中取得了一定的进展。
此外,AI 视频生成技术的快速发展也吸引了大量资本的涌入。仅在 2024 年 3 月,就有多个 AI 视频生成初创企业获得了千万美金级别的融资。例如,总部位于英国伦敦的 Haiper 在 3 月 7 日宣布完成 1380 万美金融资;由前字节跳动视觉技术负责人创立的爱诗科技在 3 月 13 日完成了一亿元人民币的 A1 轮融资;凭借让霉霉说中文视频火起来的 AI 数字人产品 HeyGen 在 3 月 24 日完成了一轮 6000 万美元的融资。

