Black Forest Labs 发布 FLUX.1，120 亿参数的图像生成模型

2024 年 8 月 10 日，Black Forest Labs 发布了 FLUX.1 图像生成模型。FLUX.1 模型由 Stable Diffusion 的原班人马打造，包含三个版本：flux-pro、flux-dev 和 flux-schnell。每个版本都针对不同的使用场景和性能需求进行了优化。

FLUX.1 模型采用了多模态和并行扩散 Transformer 模块的混合架构，拥有 120 亿参数，是目前最大的开源文本到图像模型之一。

flux-pro：这是 FLUX.1 系列中的旗舰版本，专为专业用户设计。flux-pro 具备提示跟随能力和图像质量，适用于需要高精度图像生成的商业应用。用户可以通过 API 调用这一版本。
flux-dev：这是一个开放权重的非商业版本，专为个人用户和开发者设计。flux-dev 无需写 tag 即可理解自然语言，生成图像。FP16 模型需要 24G 显存，而 FP8 模型理论上只需 12G 显存。
flux-schnell：这是 FLUX.1 系列中最快的版本，专为本地开发和个人使用设计。flux-schnell 是一个 4 步模型，适用于需要快速生成大量图像的场景。

FLUX.1 模型的技术创新主要体现在以下几个方面：

** 多模态架构 **：FLUX.1 采用了多模态和并行扩散 Transformer 模块的混合架构，能够同时处理文本和图像信息。
** 流匹配训练方法 **：这种方法能够改善扩散模型的性能。
** 旋转位置嵌入 **：这一技术增强了模型对图像中不同位置特征的识别能力。
** 并行注意力层 **：通过并行注意力机制，模型能够同时关注输入序列中的多个部分。

在性能对比方面，FLUX.1 模型表现良好。根据 Black Forest Labs 的测试数据，FLUX.1 在多个关键指标上超越了其他主流模型。用户实测体验也进一步验证了 FLUX.1 模型的性能。一位用户在 YouTube 上发布了使用 flux-pro 生成的图像视频，展示了其图像质量和细节表现。另一位用户在博客中分享了自己使用 flux-dev 的体验，提到 flux-dev 的自然语言理解能力和图像生成质量。

与其他模型的对比中，FLUX.1 的优势主要体现在以下几个方面：

** 图像质量 **：FLUX.1 在视觉质量、提示词遵循、大小 / 纵横比可变性、字体和输出多样性等方面表现良好。
** 处理速度 **：flux-schnell 作为 FLUX.1 系列中最快的版本，能够在短时间内生成图像。
** 用户体验 **：FLUX.1 的自然语言理解能力使得用户无需编写复杂的提示词，只需输入简单的描述即可生成图像。