智谱 AI 与清华大学发布 CogVideoX，GitHub 星标超 3.6k！

智谱 AI 联合清华大学发布了开源视频生成模型 CogVideoX。这个模型在 GitHub 上迅速获得了超过 3.6k 星标。CogVideoX 可以生成 6 秒长、分辨率为 720×480、帧率为 8 帧每秒的视频，并支持最长 226 个 Tokens 的英文提示词。从四个示例视频的效果来看，CogVideoX 能呈现主要物体的轮廓和运动，连灰尘和地毯等细节也非常逼真。

CogVideoX 采用了三维变分自编码器结构（3D VAE），能把原始视频数据压缩到原大小的 2%。这样一来，训练视频扩散生成模型的成本和难度降低，使得大规模视频生成变得可行。为了更好地捕捉时间维度上帧与帧之间的关系，CogVideoX 引入了 3D RoPE 位置编码模块。这个模块能够建立视频中的长期依赖关系，从而生成连贯自然的视频内容。

CogVideoX 采用的是将文本、时间、空间三维一体融合的 Transformer 架构，摒弃了传统的 cross attention 模块。通过 Expert Block 设计，优化了模态间的交互效果，使得模型在处理复杂视频生成任务时表现得更加出色。

用户可以免费体验 AI 文本生成视频和图像生成视频的服务。这降低了使用门槛，让更多人能够上手，体验到 AI 视频生成技术。商用版本 “清影” 也已经上线。用户可以通过智谱清言的 PC 端、移动应用端以及小程序端免费体验 AI 文本生成视频和图像生成视频的服务。这种免费开放的策略为视频生成技术的普及和应用提供了支持。