Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
智谱 AI 首个商用视频生成模型 Sora 开源,5 小时获 3.7K 星!

智谱 AI 首个商用视频生成模型 Sora 开源,5 小时获 3.7K 星!

2024-08-06

2024 年 8 月 6 日,智谱 AI 宣布其视频生成模型 Sora 正式开源,并且是首个可商用的版本。该模型不仅可以在线运行,还在短短 5 小时内在 GitHub 上获得了 3.7K 星。此次开源不仅包括模型本身,还附带了详细的技术报告。

智谱 AI 的 Sora 模型背后有着技术支持。团队自研了一个三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。团队采用上下文并行技术以适应大规模视频处理。

在实验中,团队发现大分辨率编码易于泛化,而增加帧数则挑战较大。因此,团队分两阶段训练模型:首先在较低帧率和小批量上训练,然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。

用户体验方面,Sora 模型的使用非常便捷。用户只需输入文本提示词,模型便可以生成视频内容。例如,用户可以输入 “在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应”,模型便会生成一个符合描述的视频。用户还可以通过调整提示词的长度和复杂度,生成不同风格和内容的视频。

此外,Sora 模型还支持图像生成视频功能。用户可以上传一张图片,并输入相应的提示词,模型便会生成一个动态视频。例如,用户可以上传一张小黄鸭玩具的图片,并输入 “漂浮在游泳池的水面,特写”,模型便会生成一个小黄鸭在水面上漂浮的视频。

实验结果显示,Sora 模型在多个基准测试中表现优于其他同类模型。在视频生成任务中,Sora 模型生成的视频质量明显优于其他同类模型。特别是在高分辨率和高帧率的视频生成任务中,Sora 模型表现出了稳定性和一致性。此外,Sora 模型还在多个实际应用场景中进行了测试,包括广告生成、短视频制作和电影剪辑等,结果显示,Sora 模型生成的视频内容具有连贯性和逻辑一致性。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5