智谱 AI 首个商用视频生成模型 Sora 开源，5 小时获 3.7K 星！

2024 年 8 月 6 日，智谱 AI 宣布其视频生成模型 Sora 正式开源，并且是首个可商用的版本。该模型不仅可以在线运行，还在短短 5 小时内在 GitHub 上获得了 3.7K 星。此次开源不仅包括模型本身，还附带了详细的技术报告。

智谱 AI 的 Sora 模型背后有着技术支持。团队自研了一个三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性，减少了通信开销。团队采用上下文并行技术以适应大规模视频处理。

在实验中，团队发现大分辨率编码易于泛化，而增加帧数则挑战较大。因此，团队分两阶段训练模型：首先在较低帧率和小批量上训练，然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。

用户体验方面，Sora 模型的使用非常便捷。用户只需输入文本提示词，模型便可以生成视频内容。例如，用户可以输入 “在一片森林中，人视，参天大树遮蔽着太阳，树叶的缝隙中洒下一些阳光，丁达尔效应”，模型便会生成一个符合描述的视频。用户还可以通过调整提示词的长度和复杂度，生成不同风格和内容的视频。

此外，Sora 模型还支持图像生成视频功能。用户可以上传一张图片，并输入相应的提示词，模型便会生成一个动态视频。例如，用户可以上传一张小黄鸭玩具的图片，并输入 “漂浮在游泳池的水面，特写”，模型便会生成一个小黄鸭在水面上漂浮的视频。

实验结果显示，Sora 模型在多个基准测试中表现优于其他同类模型。在视频生成任务中，Sora 模型生成的视频质量明显优于其他同类模型。特别是在高分辨率和高帧率的视频生成任务中，Sora 模型表现出了稳定性和一致性。此外，Sora 模型还在多个实际应用场景中进行了测试，包括广告生成、短视频制作和电影剪辑等，结果显示，Sora 模型生成的视频内容具有连贯性和逻辑一致性。