Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
智谱 AI 与清华大学发布 CogVideoX,GitHub 星标超 3.6k!

智谱 AI 与清华大学发布 CogVideoX,GitHub 星标超 3.6k!

2024-08-06

智谱 AI 联合清华大学发布了开源视频生成模型 CogVideoX。这个模型在 GitHub 上迅速获得了超过 3.6k 星标。CogVideoX 可以生成 6 秒长、分辨率为 720×480、帧率为 8 帧每秒的视频,并支持最长 226 个 Tokens 的英文提示词。从四个示例视频的效果来看,CogVideoX 能呈现主要物体的轮廓和运动,连灰尘和地毯等细节也非常逼真。

CogVideoX 采用了三维变分自编码器结构(3D VAE),能把原始视频数据压缩到原大小的 2%。这样一来,训练视频扩散生成模型的成本和难度降低,使得大规模视频生成变得可行。为了更好地捕捉时间维度上帧与帧之间的关系,CogVideoX 引入了 3D RoPE 位置编码模块。这个模块能够建立视频中的长期依赖关系,从而生成连贯自然的视频内容。

CogVideoX 采用的是将文本、时间、空间三维一体融合的 Transformer 架构,摒弃了传统的 cross attention 模块。通过 Expert Block 设计,优化了模态间的交互效果,使得模型在处理复杂视频生成任务时表现得更加出色。

用户可以免费体验 AI 文本生成视频和图像生成视频的服务。这降低了使用门槛,让更多人能够上手,体验到 AI 视频生成技术。商用版本 “清影” 也已经上线。用户可以通过智谱清言的 PC 端、移动应用端以及小程序端免费体验 AI 文本生成视频和图像生成视频的服务。这种免费开放的策略为视频生成技术的普及和应用提供了支持。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5