腾讯于 2024 年 12 月 3 日发布了 130 亿参数的混元视频生成模型,并在 Hugging Face 和 GitHub 上全面开源。此模型主要应用于广告宣传与动画制作等商业领域。模型采用 DiT 架构及新一代文本编码器,支持多主体描绘及复杂场景。
开源此模型旨在降低 AI 视频生成的技术门槛,为开发者提供便利的平台。技术上,该模型利用图像 – 视频混合 VAE(3D 变分编码器),提升了小人脸和高速运动镜头的生成效率,同时支持精确的镜面和反射场景表现,并能自动实现镜头转换。此外,腾讯提供的 API 和用户界面进一步降低了使用门槛。
开源计划可能带来数据安全和版权保护的挑战,腾讯通过技术支持和社区互动,力求实现创新与保护的平衡。