在 2024 年 8 月 7 日,Artificial Analysis 更新了其文本到图像生成器排行榜,新增了黑森林实验室的 FLUX 模型和 MidJourney 最新的 v6.1 版本。根据最新的评估结果,MidJourney v6.1 在图像质量排行榜中位居榜首,而 Playground AI 的 v2.5 则在开源模型中领先。
FLUX 模型由 Black Forest Labs 开发,这是一家由 Stable Diffusion 原班人马创立的公司。FLUX 模型基于最新的 Transformer 架构,拥有数十亿参数,使其能够生成高分辨率和高质量的图像。FLUX 的设计目标是为开发者和研究人员提供一个工具,以便他们能够创建图像生成应用。
FLUX 模型包含三个变体:
- Pro 版本:适用于需要高质量图像生成的专业应用。
- Dev 版本:开放给非商业用途的研究和开发。
- Schnell 版本:优化了速度,适合本地开发和个人项目。
在技术细节方面,FLUX 模型采用了多模态和并行扩散 Transformer 块的混合架构,扩展到 12B 参数。这种方法利用了流匹配技术,改进了之前的扩散模型,提供了性能和硬件效率。旋转位置嵌入和并行注意力层的引入进一步增强了模型的能力。
用户体验方面,FLUX 模型在多个维度上表现出色。在严格的基准测试评估中,FLUX 达到了 MidJourney v6.1、DALL-E 3 和 SD3 Ultra 等已建立模型的能力,包括视觉质量、对提示的遵循、尺寸和纵横比的灵活性、排版能力和输出的多样性。
MidJourney v6.1 是 MidJourney 团队最新发布的图像生成模型。该模型在多个方面进行了改进,包括更连贯的图像、更好的图像质量和更精确的细节。MidJourney 创始人 David Holz 在 MidJourney Discord 服务器上表示,v6.1 是 “在我们的人工智能超级集群上从头开始训练的第三个模型”,花了九个月的时间开发。
MidJourney v6.1 的一个显著特点是其对提示的理解更加精准,这意味着用户不再需要使用那些奇怪的短语或单词。例如,用户可以通过简单的提示词生成更加真实的图像,而不需要输入复杂的描述性单词。
在用户体验方面,MidJourney v6.1 的图像质量得到了广泛认可。MidJourney v6.1 在生成群像时仍存在一些挑战。用户测试发现,在生成很多人和群像时,输出结果中的人物往往显得抽象,四肢数量不对,向同一个方向延伸。
FLUX 和 MidJourney v6.1 的竞争将推动图像生成技术的发展。FLUX 在文字生成和复杂指令遵循方面表现出色,而 MidJourney v6.1 则在图像质量和细节处理上占据优势。两者各有特点,用户可以根据自己的需求选择模型。