2024 年 8 月 6 日,智谱 AI 宣布其视频生成模型 Sora 正式开源,并且是首个可商用的版本。该模型不仅可以在线运行,还在短短 5 小时内在 GitHub 上获得了 3.7K 星。此次开源不仅包括模型本身,还附带了详细的技术报告。
智谱 AI 的 Sora 模型背后有着技术支持。团队自研了一个三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。团队采用上下文并行技术以适应大规模视频处理。
在实验中,团队发现大分辨率编码易于泛化,而增加帧数则挑战较大。因此,团队分两阶段训练模型:首先在较低帧率和小批量上训练,然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。
用户体验方面,Sora 模型的使用非常便捷。用户只需输入文本提示词,模型便可以生成视频内容。例如,用户可以输入 “在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应”,模型便会生成一个符合描述的视频。用户还可以通过调整提示词的长度和复杂度,生成不同风格和内容的视频。
此外,Sora 模型还支持图像生成视频功能。用户可以上传一张图片,并输入相应的提示词,模型便会生成一个动态视频。例如,用户可以上传一张小黄鸭玩具的图片,并输入 “漂浮在游泳池的水面,特写”,模型便会生成一个小黄鸭在水面上漂浮的视频。
实验结果显示,Sora 模型在多个基准测试中表现优于其他同类模型。在视频生成任务中,Sora 模型生成的视频质量明显优于其他同类模型。特别是在高分辨率和高帧率的视频生成任务中,Sora 模型表现出了稳定性和一致性。此外,Sora 模型还在多个实际应用场景中进行了测试,包括广告生成、短视频制作和电影剪辑等,结果显示,Sora 模型生成的视频内容具有连贯性和逻辑一致性。