Black Forest Labs, 一家由前 Stability.ai 开发者创立的新兴 AI 初创公司,致力于开发图像和视频生成 AI 模型。该公司推出了其首个模型家族 FLUX.1,在文本到图像生成方面设立了新的标准。 Black Forest Labs 位于德国弗赖堡,由曾在 Stability.ai 工作的 AI 研究人员和开发者组成,他们曾参与开发 Stable Diffusion 等生成式 AI 模型。团队在春季离开 Stability.ai,并已筹集了 3100 万美元的种子资金。Andreessen Horowitz 领投,天使投资者包括 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila 和 Vladlen Koltun,General Catalyst 和 MätchVC 也参与了投资。
该公司的创始团队在 VQGAN、Latent Diffusion、Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers 和 Adversarial Diffusion Distillation 等领域有着丰富的经验。为庆祝发布,Black Forest Labs 推出了 FLUX.1 系列文本到图像模型。这些模型在图像细节、提示响应、风格多样性和场景复杂性方面设立了新的标准。所有 FLUX.1 模型支持多种纵横比和分辨率,从 0.1 到 2.0 百万像素不等。
FLUX.1 提供三种变体:FLUX.1 [pro] 通过 Replicate 和 fal.ai 商业使用,FLUX.1 [dev] 用于非商业应用,FLUX.1 [schnell] 用于本地开发和个人使用,且免费提供 Apache 2.0 许可证。
在 2024 年 8 月 7 日,Artificial Analysis 更新了其文本到图像生成器排行榜,新增了 FLUX 模型和 MidJourney 最新的 v6.1 版本。根据最新评估,MidJourney v6.1 在图像质量排行榜中位居榜首,而 Playground AI 的 v2.5 则在开源模型中领先。然而,仅一天之后,FLUX.1 [pro] 就超越了 MidJourney v6.1,成为新的冠军。FLUX.1 [dev] 紧随其后,位居第三,而 FLUX.1 [schnell] 则在开源模型中占据领先地位。
技术细节方面,FLUX.1 模型采用了多模态和并行扩散 Transformer 块的混合架构,扩展到 12B 参数。这种方法利用了流匹配技术,改进了之前的扩散模型,提供了性能和硬件效率。旋转位置嵌入和并行注意力层的引入进一步增强了模型的能力。
用户体验方面,用户们在社交媒体上分享了他们使用 FLUX.1 生成的图像,展示了其在文字生成、复杂场景构建和人手生成方面的表现。

