Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
仅需 18GB 显存!智谱 AI 开源视频生成模型 CogVideoX-2B

仅需 18GB 显存!智谱 AI 开源视频生成模型 CogVideoX-2B

2024-08-06

智谱 AI 宣布开源其最新的视频生成模型 ——CogVideoX,展示了在视频生成领域的新突破。CogVideoX 模型有多个不同尺寸的版本,目前主要开源的是 CogVideoX-2B。在 FP-16 精度下,这个模型推理只需 18GB 显存,微调需要 40GB 显存,也就是说单张 4090 显卡就能应付推理,单张 A6000 显卡就可以完成微调。

CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,分辨率达到了 720*480。这一举措降低了视频生成的门槛,为开发者和研究人员提供了工具。CogVideoX 采用三维变分自编码器结构(3D VAE),可以将原始视频数据压缩到原始大小的 2%。这种压缩技术降低了视频生成模型的训练成本和难度,使大规模视频生成成为可能。

为了更好地捕捉时间维度上帧与帧之间的关系,CogVideoX 引入了 3D RoPE 位置编码模块。这一模块能够建立视频中的长期依赖关系,生成连贯自然的视频内容。CogVideoX 采用融合文本、时间和空间三维的 Transformer 架构,摒弃了传统的 cross attention 模块。通过 Expert Block 设计,优化了不同模态间的交互效果,使得模型在处理复杂视频生成任务时表现更为出色。

智谱 AI 打算与国内外研究机构和企业展开合作。他们将开放部分技术接口,邀请更多的开发者和研究人员参与到研发中来。通过技术交流和合作,推动视频生成技术的发展。

CogVideoX 在技术上依然面临一些难题,比如,要如何进一步提升视频生成的速度和质量,如何处理复杂的多模态数据,这些都是需要攻克的技术难点。

代码仓库:GitHub
模型下载:Hugging Face
技术报告:PDF

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5