Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

360AI 与中山大学联合发布 FancyVideo,消费级显卡也能生成高质量视频!

2024-08-26

2024 年 8 月 26 日,360AI 团队与中山大学联合研发并开源了视频生成模型 FancyVideo。该模型能够在消费级显卡(如 GeForce RTX 3090)上生成任意分辨率、任意宽高比、不同风格和不同运动幅度的视频。此外,FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。

FancyVideo 的主要特点包括其在消费级显卡上的运行能力、灵活的分辨率和宽高比支持、多样化的风格和运动幅度生成能力,以及视频扩展和回溯功能。FancyVideo 的核心技术在于其跨帧文本引导模块(CTGM),该模块通过在视频生成过程中引入时间信息注入器(TII)、时间亲和力精炼器(TAR)和时间特征增强器(TFB),实现了帧特定的文本指导。这种设计使得 FancyVideo 能够生成时间上连贯且动态丰富的视频内容。

CTGM 的设计理念是通过在交叉注意力的不同阶段引入时间信息,从而提升视频生成的时间一致性和逻辑性。具体来说,TII 在交叉注意力的开始阶段注入时间信息,确保每一帧都能获取到全局的时间上下文;TAR 在中间阶段精炼时间亲和力,使得相邻帧之间的时间关系更加紧密;TFB 在结束阶段增强时间特征,确保生成的视频在时间维度上具有一致性和连贯性。

FancyVideo 的训练流程设计旨在提升视频生成的质量和一致性。通过跨帧文本引导模块的引入,模型能够更好地理解和生成具有时间逻辑的视频内容。训练过程中,FancyVideo 通过对时序信息的注入和特征的增强,在生成动态视频时展现出了更高的灵活性和准确性。

在实验结果方面,FancyVideo 在多个基准测试中表现良好。特别是在 EvalCrafter 基准上的测试结果显示,FancyVideo 在文本到视频(T2V)生成任务中实现了先进的生成效果。定量评估结果表明,FancyVideo 在生成视频的时间一致性和动态丰富度方面优于现有的 T2V 模型。定性评估结果则展示了 FancyVideo 在生成复杂运动和多样化风格视频方面的表现。

此外,FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。视频扩展功能允许用户在已有视频的基础上生成新的内容,扩展视频的长度和内容丰富度;视频回溯功能则能够生成视频的逆向播放版本,为视频编辑和创作提供了更多的灵活性和可能性。

FancyVideo 的应用场景非常广泛,涵盖了从娱乐和媒体制作到教育和科研等多个领域。在娱乐和媒体制作方面,FancyVideo 可以用于生成动画和特效,提升影视作品的视觉效果和观赏体验。在教育领域,FancyVideo 可以用于制作教学视频和课件,帮助学生更直观地理解复杂的知识点。在科研领域,FancyVideo 可以用于模拟和可视化实验过程,辅助科学研究和数据分析。

与其他视频生成模型相比,FancyVideo 具有一些优势。首先,FancyVideo 能够在消费级显卡上高效运行,这使得其在硬件要求和成本方面具有优势。其次,FancyVideo 支持任意分辨率和宽高比的生成,提供了更大的灵活性和适应性。此外,FancyVideo 的跨帧文本引导模块(CTGM)通过引入时间信息注入器(TII)、时间亲和力精炼器(TAR)和时间特征增强器(TFB),提升了视频生成的时间一致性和逻辑性。

相比之下,其他视频生成模型在时间一致性和动态丰富度方面往往存在不足。例如,现有的文本到视频(T2V)模型通常采用空间交叉注意力进行文本控制,等效地指导不同帧的生成,而没有帧特定的文本指导。这导致生成的视频在时间维度上缺乏一致性和连贯性。而 FancyVideo 通过 CTGM 的设计,解决了这一问题,实现了更高质量的时间一致性和动态丰富度。

FancyVideo 的开源项目可以在 GitHub 上找到。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5