2024 年 8 月 10 日,Black Forest Labs 发布了 FLUX.1 图像生成模型。FLUX.1 模型由 Stable Diffusion 的原班人马打造,包含三个版本:flux-pro、flux-dev 和 flux-schnell。每个版本都针对不同的使用场景和性能需求进行了优化。
FLUX.1 模型采用了多模态和并行扩散 Transformer 模块的混合架构,拥有 120 亿参数,是目前最大的开源文本到图像模型之一。
- flux-pro:这是 FLUX.1 系列中的旗舰版本,专为专业用户设计。flux-pro 具备提示跟随能力和图像质量,适用于需要高精度图像生成的商业应用。用户可以通过 API 调用这一版本。
- flux-dev:这是一个开放权重的非商业版本,专为个人用户和开发者设计。flux-dev 无需写 tag 即可理解自然语言,生成图像。FP16 模型需要 24G 显存,而 FP8 模型理论上只需 12G 显存。
- flux-schnell:这是 FLUX.1 系列中最快的版本,专为本地开发和个人使用设计。flux-schnell 是一个 4 步模型,适用于需要快速生成大量图像的场景。
FLUX.1 模型的技术创新主要体现在以下几个方面:
- ** 多模态架构 **:FLUX.1 采用了多模态和并行扩散 Transformer 模块的混合架构,能够同时处理文本和图像信息。
- ** 流匹配训练方法 **:这种方法能够改善扩散模型的性能。
- ** 旋转位置嵌入 **:这一技术增强了模型对图像中不同位置特征的识别能力。
- ** 并行注意力层 **:通过并行注意力机制,模型能够同时关注输入序列中的多个部分。
在性能对比方面,FLUX.1 模型表现良好。根据 Black Forest Labs 的测试数据,FLUX.1 在多个关键指标上超越了其他主流模型。用户实测体验也进一步验证了 FLUX.1 模型的性能。一位用户在 YouTube 上发布了使用 flux-pro 生成的图像视频,展示了其图像质量和细节表现。另一位用户在博客中分享了自己使用 flux-dev 的体验,提到 flux-dev 的自然语言理解能力和图像生成质量。
与其他模型的对比中,FLUX.1 的优势主要体现在以下几个方面:
- ** 图像质量 **:FLUX.1 在视觉质量、提示词遵循、大小 / 纵横比可变性、字体和输出多样性等方面表现良好。
- ** 处理速度 **:flux-schnell 作为 FLUX.1 系列中最快的版本,能够在短时间内生成图像。
- ** 用户体验 **:FLUX.1 的自然语言理解能力使得用户无需编写复杂的提示词,只需输入简单的描述即可生成图像。

