智谱 AI 联合清华大学发布了开源视频生成模型 CogVideoX。这个模型在 GitHub 上迅速获得了超过 3.6k 星标。CogVideoX 可以生成 6 秒长、分辨率为 720×480、帧率为 8 帧每秒的视频,并支持最长 226 个 Tokens 的英文提示词。从四个示例视频的效果来看,CogVideoX 能呈现主要物体的轮廓和运动,连灰尘和地毯等细节也非常逼真。
CogVideoX 采用了三维变分自编码器结构(3D VAE),能把原始视频数据压缩到原大小的 2%。这样一来,训练视频扩散生成模型的成本和难度降低,使得大规模视频生成变得可行。为了更好地捕捉时间维度上帧与帧之间的关系,CogVideoX 引入了 3D RoPE 位置编码模块。这个模块能够建立视频中的长期依赖关系,从而生成连贯自然的视频内容。
CogVideoX 采用的是将文本、时间、空间三维一体融合的 Transformer 架构,摒弃了传统的 cross attention 模块。通过 Expert Block 设计,优化了模态间的交互效果,使得模型在处理复杂视频生成任务时表现得更加出色。
用户可以免费体验 AI 文本生成视频和图像生成视频的服务。这降低了使用门槛,让更多人能够上手,体验到 AI 视频生成技术。商用版本 “清影” 也已经上线。用户可以通过智谱清言的 PC 端、移动应用端以及小程序端免费体验 AI 文本生成视频和图像生成视频的服务。这种免费开放的策略为视频生成技术的普及和应用提供了支持。

