智谱 AI 发布新一代视频生成模型 CogVideoX-5B，广告制作公司迎来新利器

2024 年 8 月 29 日，智谱 AI 发布了新一代视频生成模型 CogVideoX 的 5B 版本。该版本在资源消耗上较 2B 版本有所增加，生成的视频质量有所提升。示例视频展示了水的下落和流动效果的真实感，以及写实风格视频的逼真度。用户可以通过相关链接直接体验或下载该模型。

CogVideoX-5B 模型在 FP-16 精度下的推理需要 18GB 显存，微调则需要 40GB 显存，这意味着单张 4090 显卡即可进行推理，而单张 A6000 显卡即可完成微调。CogVideoX-5B 的提示词上限为 226 个 token，视频长度为 6 秒，帧率为 8 帧 / 秒，视频分辨率为 720480。

技术细节显示，CogVideoX-5B 采用了多层 Transformer 架构，能够处理大规模的数据集，并通过多模态学习来生成视频内容。模型的训练数据包括大量的文本和视频对，这使得 CogVideoX 能够在理解文本的基础上生成视频。此外，CogVideoX 还引入了新的优化算法，使得视频生成过程更加高效。

CogVideoX-5B 模型的应用场景包括广告制作、影视创作、教育培训和社交媒体内容生成。对于广告制作公司来说，CogVideoX-5B 可以根据客户的需求生成定制化的视频广告。在影视创作方面，CogVideoX-5B 可以辅助编剧和导演生成场景预览，帮助他们规划和调整拍摄计划。教育培训领域也可以利用 CogVideoX-5B 生成教学视频，提供更加生动和直观的学习体验。