仅需 18GB 显存！智谱 AI 开源视频生成模型 CogVideoX-2B

智谱 AI 宣布开源其最新的视频生成模型 ——CogVideoX，展示了在视频生成领域的新突破。CogVideoX 模型有多个不同尺寸的版本，目前主要开源的是 CogVideoX-2B。在 FP-16 精度下，这个模型推理只需 18GB 显存，微调需要 40GB 显存，也就是说单张 4090 显卡就能应付推理，单张 A6000 显卡就可以完成微调。

CogVideoX-2B 的提示词上限为 226 个 token，视频长度为 6 秒，帧率为 8 帧 / 秒，分辨率达到了 720*480。这一举措降低了视频生成的门槛，为开发者和研究人员提供了工具。CogVideoX 采用三维变分自编码器结构（3D VAE），可以将原始视频数据压缩到原始大小的 2%。这种压缩技术降低了视频生成模型的训练成本和难度，使大规模视频生成成为可能。

为了更好地捕捉时间维度上帧与帧之间的关系，CogVideoX 引入了 3D RoPE 位置编码模块。这一模块能够建立视频中的长期依赖关系，生成连贯自然的视频内容。CogVideoX 采用融合文本、时间和空间三维的 Transformer 架构，摒弃了传统的 cross attention 模块。通过 Expert Block 设计，优化了不同模态间的交互效果，使得模型在处理复杂视频生成任务时表现更为出色。

智谱 AI 打算与国内外研究机构和企业展开合作。他们将开放部分技术接口，邀请更多的开发者和研究人员参与到研发中来。通过技术交流和合作，推动视频生成技术的发展。

CogVideoX 在技术上依然面临一些难题，比如，要如何进一步提升视频生成的速度和质量，如何处理复杂的多模态数据，这些都是需要攻克的技术难点。

代码仓库：GitHub
模型下载：Hugging Face
技术报告：PDF