2024 年 8 月 26 日,360AI 团队与中山大学联合研发并开源了视频生成模型 FancyVideo。该模型能够在消费级显卡(如 GeForce RTX 3090)上生成任意分辨率、任意宽高比、不同风格和不同运动幅度的视频。此外,FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。
FancyVideo 的主要特点包括其在消费级显卡上的运行能力、灵活的分辨率和宽高比支持、多样化的风格和运动幅度生成能力,以及视频扩展和回溯功能。FancyVideo 的核心技术在于其跨帧文本引导模块(CTGM),该模块通过在视频生成过程中引入时间信息注入器(TII)、时间亲和力精炼器(TAR)和时间特征增强器(TFB),实现了帧特定的文本指导。这种设计使得 FancyVideo 能够生成时间上连贯且动态丰富的视频内容。
CTGM 的设计理念是通过在交叉注意力的不同阶段引入时间信息,从而提升视频生成的时间一致性和逻辑性。具体来说,TII 在交叉注意力的开始阶段注入时间信息,确保每一帧都能获取到全局的时间上下文;TAR 在中间阶段精炼时间亲和力,使得相邻帧之间的时间关系更加紧密;TFB 在结束阶段增强时间特征,确保生成的视频在时间维度上具有一致性和连贯性。
FancyVideo 的训练流程设计旨在提升视频生成的质量和一致性。通过跨帧文本引导模块的引入,模型能够更好地理解和生成具有时间逻辑的视频内容。训练过程中,FancyVideo 通过对时序信息的注入和特征的增强,在生成动态视频时展现出了更高的灵活性和准确性。
在实验结果方面,FancyVideo 在多个基准测试中表现良好。特别是在 EvalCrafter 基准上的测试结果显示,FancyVideo 在文本到视频(T2V)生成任务中实现了先进的生成效果。定量评估结果表明,FancyVideo 在生成视频的时间一致性和动态丰富度方面优于现有的 T2V 模型。定性评估结果则展示了 FancyVideo 在生成复杂运动和多样化风格视频方面的表现。
此外,FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。视频扩展功能允许用户在已有视频的基础上生成新的内容,扩展视频的长度和内容丰富度;视频回溯功能则能够生成视频的逆向播放版本,为视频编辑和创作提供了更多的灵活性和可能性。
FancyVideo 的应用场景非常广泛,涵盖了从娱乐和媒体制作到教育和科研等多个领域。在娱乐和媒体制作方面,FancyVideo 可以用于生成动画和特效,提升影视作品的视觉效果和观赏体验。在教育领域,FancyVideo 可以用于制作教学视频和课件,帮助学生更直观地理解复杂的知识点。在科研领域,FancyVideo 可以用于模拟和可视化实验过程,辅助科学研究和数据分析。
与其他视频生成模型相比,FancyVideo 具有一些优势。首先,FancyVideo 能够在消费级显卡上高效运行,这使得其在硬件要求和成本方面具有优势。其次,FancyVideo 支持任意分辨率和宽高比的生成,提供了更大的灵活性和适应性。此外,FancyVideo 的跨帧文本引导模块(CTGM)通过引入时间信息注入器(TII)、时间亲和力精炼器(TAR)和时间特征增强器(TFB),提升了视频生成的时间一致性和逻辑性。
相比之下,其他视频生成模型在时间一致性和动态丰富度方面往往存在不足。例如,现有的文本到视频(T2V)模型通常采用空间交叉注意力进行文本控制,等效地指导不同帧的生成,而没有帧特定的文本指导。这导致生成的视频在时间维度上缺乏一致性和连贯性。而 FancyVideo 通过 CTGM 的设计,解决了这一问题,实现了更高质量的时间一致性和动态丰富度。
FancyVideo 的开源项目可以在 GitHub 上找到。

