2024 年 8 月 28 日,智谱 AI 发布了其最新的视频生成模型 CogVideoX-5B。相比之前的 2B 版本,5B 版本在视频生成质量上有了提升,尽管资源消耗更高,但其生成的视频效果更加逼真,尤其是在水的下落和流动效果上表现尤为真实。用户可以通过抱抱脸平台直接体验模型,或通过 GitHub 下载到本地。
CogVideoX-5B 采用了 3D VAE(变分自编码器)技术,通过压缩视频数据到 latent space,并在时间维度上进行解码来实现高效的视频重建。这一技术不仅提高了视频生成的质量,还保持了较低的 VRAM 使用量,使得在 RTX 3060 等桌面端显卡上也能运行。
与 2B 版本相比,5B 版本在多个方面进行了优化。首先,5B 版本的视频生成质量更高,视觉效果更好。其次,5B 版本优化了模型的推理性能,推理门槛降低,可以在 GTX 1080Ti 等早期显卡上运行 2B 版本,在 RTX 3060 等桌面端显卡上运行 5B 版本。
CogVideoX-5B 的应用场景涵盖了视频创作、广告制作、虚拟现实内容生成等多个领域。在视频创作方面,用户可以通过输入文本提示词生成视频内容。例如,用户可以输入 “低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风”,CogVideoX-5B 便能生成符合描述的视频片段。
在广告制作方面,CogVideoX-5B 可以帮助广告创作者生成广告视频,节省时间和成本。虚拟现实内容生成方面,CogVideoX-5B 可以生成虚拟场景,为用户提供沉浸式的体验。
实际案例方面,许多用户在社交媒体上分享了他们使用 CogVideoX-5B 生成的视频内容。一位用户在推特上分享了一段视频,展示了 CogVideoX-5B 生成的水流效果,视频中的水流动自然,细节逼真。另一位用户则分享了一段写实风格的视频,视频中的场景几乎与真实拍摄无异。
用户可以通过抱抱脸平台直接体验模型,或通过 GitHub 下载到本地。

