2024 年 8 月 9 日,苹果公司发布了一种名为 Matryoshka Diffusion Models (MDM) 的新型图像和视频生成方法。MDM 模型以俄罗斯套娃为灵感,能够在不同清晰度下同时处理图像,从低分辨率到高分辨率逐步生成图像和视频。该方法能够生成分辨率高达 1024×1024 像素的图像,甚至在数据量较少的情况下也能表现出色。
MDM 模型的技术细节包括采用一种嵌套的 UNet 架构,通过多尺度联合扩散过程,将小尺度模型嵌套在大尺度模型中,从而促进特征共享。这种方法不仅提高了生成效率,还提升了图像和视频的质量。具体来说,MDM 模型能够同时生成低清晰度的草图和高清晰度的细节部分,使得整个生成过程更加高效。
与传统的扩散模型相比,MDM 模型在多个方面表现出色。传统的扩散模型通常在图像的像素层面上逐步生成,或者通过先训练一个压缩图像的模型,再在低分辨率的图像上进行处理。这些方法在处理高分辨率图像时往往面临计算和优化难题。而 MDM 模型的创新之处在于它能同时处理不同分辨率的图像,MDM 模型的训练过程是从低分辨率到高分辨率逐步进行的,这让生成高分辨率图像和视频变得更加高效。
在与其他模型的对比中,MDM 模型的优势尤为明显。例如,智谱 AI 最近发布的 “清影” 视频生成模型虽然在生成视频方面表现出色,但其生成的视频时长仅为 6 秒,清晰度为 1440×960。而 MDM 模型不仅能够生成高达 1024×1024 像素的图像,还能扩展到视频生成领域,生成符合文本描述的动态视频序列。
MDM 模型的应用场景非常广泛。由于其多分辨率处理能力和高效的生成过程,MDM 模型在多个领域都有潜在的应用价值。例如,在影视制作中,MDM 模型可以用于生成特效和动画,减少制作时间和成本。在广告行业,MDM 模型可以用于生成广告图像和视频。此外,在游戏开发中,MDM 模型可以用于生成游戏场景和角色。
一个实际案例是某影视制作公司使用 MDM 模型生成电影特效。该公司在制作一部科幻电影时,需要生成大量高分辨率的特效图像和视频。传统的方法需要耗费大量的时间和计算资源,而 MDM 模型的多分辨率处理能力使得这一过程变得更加高效。通过使用 MDM 模型,该公司不仅大大缩短了制作时间,还提高了特效的质量,最终呈现出视觉效果。
另一个实际案例是某广告公司使用 MDM 模型生成广告图像和视频。该公司需要为客户制作一系列高分辨率的广告图像和视频。通过使用 MDM 模型,该公司能够快速生成符合客户要求的广告图像和视频,提高了广告的视觉效果,最终帮助客户实现了市场推广效果。

