刚刚,Stable Diffusion 的原班人马宣布成立新公司 Black Forest Lab,并带来了全新的 FLUX.1 图像生成模型。这支团队由 Robin Rombach 领导,他是 Stable Diffusion 的主要作者之一。新公司一亮相就发布了三个模型,其中两个是开源的,还支持中文输入。
Black Forest Lab 宣布已完成 3200 万美元的融资,由 a16z 领投,投资者包括 Oculus VR 联创 Brendan Iribe、YC 前合伙人 Garry Tan、NVIDIA Research 领导 Timo Aila 等业界人士。今年 3 月,Robin Rombach 和他的团队从 Stability AI 离职,主要原因是他们对公司未来的发展方向存在分歧,并且希望继续坚持开源精神。
团队成员包括 Andreas Blattmann、Axel Sauer、Dominik Lorenz 等,他们都是 Stability AI 的原班人马。Black Forest Lab 在成立当天就发布了 FLUX.1 系列模型。FLUX.1 系列包括三个版本:pro、dev 和 schnell。
- FLUX.1 [pro]:这个版本提供图像生成性能,包括指令遵循、视觉质量、图像细节和输出多样性。可以通过 Replicate 和 fal.ai 访问,还有专用和定制的企业解决方案可供选择。
- FLUX.1 [dev]:这个版本允许非商业使用,开放权重,并经过蒸馏。从 [pro] 版本中蒸馏而来,质量相近且遵循能力强,同时比同尺寸的标准模型更高效。用户可以在抱抱脸上试玩,或在 Replicate 和 fal.ai 上试用。
- FLUX.1 [schnell]:这是速度最快的版本,为本地和个人开发者量身打造。FLUX.1 [schnell] 在 Apache2.0 许可证下公开,模型权重可以在抱抱脸上找到,推理代码在 GitHub 上也有。已经获得 ComfyUI 的支持,可以直接使用,或通过 Replicate 和 fal.ai 使用。
FLUX.1 系列模型的技术亮点在于其基于多模态和并行扩散 Transformer 块的混合架构,并扩展到 12B 参数。FLUX.1 [pro] 和 [dev] 在视觉质量、提示响应度、尺寸 / 长宽高比列灵活性、排版和输出多样性方面,超过了 Midjourney v6.0、DALL・E 3 (HD) 和 Stable Diffusion 3-Ultra。FLUX.1 [schnell] 则被称为 “迄今为止最先进的少步骤模型(few-step model)”。
另外,FLUX.1 系列模型还支持中文输入,用户可以通过输入中文提示词生成图像。
这笔 3200 万美元的融资为 Black Forest Lab 提供了资金,还带来了行业资源和技术支持。投资者的多样化背景将帮助公司在图像生成技术领域发展和拓展市场。
FLUX.1 模型采用了宽松的 Apache2.0 开源协议,这意味着开发者可以自由使用、修改和分发该模型。这一决定促进了技术的传播和创新,也吸引了更多开发者参与到 FLUX.1 的改进和应用中。