英伟达领衔，Sana 架构 0.37 秒生成 1024 像素图像，挑战 PixArt-Σ！

英伟达与麻省理工学院和清华大学共同推出了 Sana 架构，旨在提高 AI 图像生成的效率和质量。这一架构能够在 0.37 秒内生成 1024×1024 像素的图像，并处理高达 4096×4096 像素的图像场景。

Sana 的核心设计包括以下几个方面：

深度压缩自编码器- ：将图像压缩 32 倍，从而减少潜在 token 数量，这有助于高效训练和生成高分辨率图像。
线性 DiT- ：采用线性注意力替代传统注意力机制，将计算复杂度从 O (N²) 降低到 O (N)，显著提高高分辨率图像生成的效率。
基于仅解码器模型的文本编码器- ：用于实现图像与文本的对齐，且通过 Gemma 模型提升了文本理解和执行能力。
高效的训练和采样策略- ：通过自动标注和训练策略，提高了文本与图像的一致性，减少了推理步骤。
在 512×512 分辨率的图像生成中，Sana-0.6 在 FID、Clip Score、GenEval 及 DPG-Bench 等指标上表现良好，并相较于 PixArt-Σ 具有优势。与较大型模型相比，Sana 在降低硬件需求方面也表现出色。这一架构展示了其将文本与图像高效关联的能力。