360AI 与中山大学联合发布 FancyVideo，消费级显卡也能生成高质量视频！

2024 年 8 月 26 日，360AI 团队与中山大学联合研发并开源了视频生成模型 FancyVideo。该模型能够在消费级显卡（如 GeForce RTX 3090）上生成任意分辨率、任意宽高比、不同风格和不同运动幅度的视频。此外，FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。

FancyVideo 的主要特点包括其在消费级显卡上的运行能力、灵活的分辨率和宽高比支持、多样化的风格和运动幅度生成能力，以及视频扩展和回溯功能。FancyVideo 的核心技术在于其跨帧文本引导模块（CTGM），该模块通过在视频生成过程中引入时间信息注入器（TII）、时间亲和力精炼器（TAR）和时间特征增强器（TFB），实现了帧特定的文本指导。这种设计使得 FancyVideo 能够生成时间上连贯且动态丰富的视频内容。

CTGM 的设计理念是通过在交叉注意力的不同阶段引入时间信息，从而提升视频生成的时间一致性和逻辑性。具体来说，TII 在交叉注意力的开始阶段注入时间信息，确保每一帧都能获取到全局的时间上下文；TAR 在中间阶段精炼时间亲和力，使得相邻帧之间的时间关系更加紧密；TFB 在结束阶段增强时间特征，确保生成的视频在时间维度上具有一致性和连贯性。

FancyVideo 的训练流程设计旨在提升视频生成的质量和一致性。通过跨帧文本引导模块的引入，模型能够更好地理解和生成具有时间逻辑的视频内容。训练过程中，FancyVideo 通过对时序信息的注入和特征的增强，在生成动态视频时展现出了更高的灵活性和准确性。

在实验结果方面，FancyVideo 在多个基准测试中表现良好。特别是在 EvalCrafter 基准上的测试结果显示，FancyVideo 在文本到视频（T2V）生成任务中实现了先进的生成效果。定量评估结果表明，FancyVideo 在生成视频的时间一致性和动态丰富度方面优于现有的 T2V 模型。定性评估结果则展示了 FancyVideo 在生成复杂运动和多样化风格视频方面的表现。

此外，FancyVideo 的衍生模型还具备视频扩展和视频回溯功能。视频扩展功能允许用户在已有视频的基础上生成新的内容，扩展视频的长度和内容丰富度；视频回溯功能则能够生成视频的逆向播放版本，为视频编辑和创作提供了更多的灵活性和可能性。

FancyVideo 的应用场景非常广泛，涵盖了从娱乐和媒体制作到教育和科研等多个领域。在娱乐和媒体制作方面，FancyVideo 可以用于生成动画和特效，提升影视作品的视觉效果和观赏体验。在教育领域，FancyVideo 可以用于制作教学视频和课件，帮助学生更直观地理解复杂的知识点。在科研领域，FancyVideo 可以用于模拟和可视化实验过程，辅助科学研究和数据分析。

与其他视频生成模型相比，FancyVideo 具有一些优势。首先，FancyVideo 能够在消费级显卡上高效运行，这使得其在硬件要求和成本方面具有优势。其次，FancyVideo 支持任意分辨率和宽高比的生成，提供了更大的灵活性和适应性。此外，FancyVideo 的跨帧文本引导模块（CTGM）通过引入时间信息注入器（TII）、时间亲和力精炼器（TAR）和时间特征增强器（TFB），提升了视频生成的时间一致性和逻辑性。

相比之下，其他视频生成模型在时间一致性和动态丰富度方面往往存在不足。例如，现有的文本到视频（T2V）模型通常采用空间交叉注意力进行文本控制，等效地指导不同帧的生成，而没有帧特定的文本指导。这导致生成的视频在时间维度上缺乏一致性和连贯性。而 FancyVideo 通过 CTGM 的设计，解决了这一问题，实现了更高质量的时间一致性和动态丰富度。

FancyVideo 的开源项目可以在 GitHub 上找到。