Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

英伟达领衔,Sana 架构 0.37 秒生成 1024 像素图像,挑战 PixArt-Σ!

2024-10-18

英伟达与麻省理工学院和清华大学共同推出了 Sana 架构,旨在提高 AI 图像生成的效率和质量。这一架构能够在 0.37 秒内生成 1024×1024 像素的图像,并处理高达 4096×4096 像素的图像场景。

Sana 的核心设计包括以下几个方面:

  • 深度压缩自编码器- :将图像压缩 32 倍,从而减少潜在 token 数量,这有助于高效训练和生成高分辨率图像。
  • 线性 DiT- :采用线性注意力替代传统注意力机制,将计算复杂度从 O (N²) 降低到 O (N),显著提高高分辨率图像生成的效率。
  • 基于仅解码器模型的文本编码器- :用于实现图像与文本的对齐,且通过 Gemma 模型提升了文本理解和执行能力。
  • 高效的训练和采样策略- :通过自动标注和训练策略,提高了文本与图像的一致性,减少了推理步骤。
    在 512×512 分辨率的图像生成中,Sana-0.6 在 FID、Clip Score、GenEval 及 DPG-Bench 等指标上表现良好,并相较于 PixArt-Σ 具有优势。与较大型模型相比,Sana 在降低硬件需求方面也表现出色。这一架构展示了其将文本与图像高效关联的能力。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5