Meta 发布了视频扩散模型 MarDini,此模型结合了掩码自回归 (MAR) 技术,旨在简化和提升视频创作的灵活性。MarDini 的主要特点包括:
- 利用视频插值技术实现场景间的平滑过渡。
- 将单一图像转化为动态场景或扩展短视频片段。
- 能从未标记的视频数据中训练,减少对复杂预训练图像模型的依赖。
MarDini 采用逐步训练策略,从单帧处理到全序列视频生成,这一过程中动态调整帧的掩蔽方式,使模型适应各种帧配置。
适用领域上,MarDini 能够用于视频插值、视频扩展、图像转视频等,适合电影和广告制作、社交媒体内容创作、游戏开发、教育培训,以及虚拟现实和增强现实等应用领域。
虽然在处理复杂场景时可能存在一致性问题,但 Meta 将继续努力改进。MarDini 的发布也引发了创作伦理和版权的讨论。