2024 年 8 月 29 日,智谱 AI 发布了新一代视频生成模型 CogVideoX 的 5B 版本。该版本在资源消耗上较 2B 版本有所增加,生成的视频质量有所提升。示例视频展示了水的下落和流动效果的真实感,以及写实风格视频的逼真度。用户可以通过相关链接直接体验或下载该模型。
CogVideoX-5B 模型在 FP-16 精度下的推理需要 18GB 显存,微调则需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。CogVideoX-5B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720480。
技术细节显示,CogVideoX-5B 采用了多层 Transformer 架构,能够处理大规模的数据集,并通过多模态学习来生成视频内容。模型的训练数据包括大量的文本和视频对,这使得 CogVideoX 能够在理解文本的基础上生成视频。此外,CogVideoX 还引入了新的优化算法,使得视频生成过程更加高效。
CogVideoX-5B 模型的应用场景包括广告制作、影视创作、教育培训和社交媒体内容生成。对于广告制作公司来说,CogVideoX-5B 可以根据客户的需求生成定制化的视频广告。在影视创作方面,CogVideoX-5B 可以辅助编剧和导演生成场景预览,帮助他们规划和调整拍摄计划。教育培训领域也可以利用 CogVideoX-5B 生成教学视频,提供更加生动和直观的学习体验。

