英伟达与麻省理工学院和清华大学共同推出了 Sana 架构,旨在提高 AI 图像生成的效率和质量。这一架构能够在 0.37 秒内生成 1024×1024 像素的图像,并处理高达 4096×4096 像素的图像场景。
Sana 的核心设计包括以下几个方面:
- 深度压缩自编码器- :将图像压缩 32 倍,从而减少潜在 token 数量,这有助于高效训练和生成高分辨率图像。
- 线性 DiT- :采用线性注意力替代传统注意力机制,将计算复杂度从 O (N²) 降低到 O (N),显著提高高分辨率图像生成的效率。
- 基于仅解码器模型的文本编码器- :用于实现图像与文本的对齐,且通过 Gemma 模型提升了文本理解和执行能力。
- 高效的训练和采样策略- :通过自动标注和训练策略,提高了文本与图像的一致性,减少了推理步骤。
在 512×512 分辨率的图像生成中,Sana-0.6 在 FID、Clip Score、GenEval 及 DPG-Bench 等指标上表现良好,并相较于 PixArt-Σ 具有优势。与较大型模型相比,Sana 在降低硬件需求方面也表现出色。这一架构展示了其将文本与图像高效关联的能力。