MidJourney v6.1 登顶图像质量榜首，黑森林实验室 FLUX 紧随其后

在 2024 年 8 月 7 日，Artificial Analysis 更新了其文本到图像生成器排行榜，新增了黑森林实验室的 FLUX 模型和 MidJourney 最新的 v6.1 版本。根据最新的评估结果，MidJourney v6.1 在图像质量排行榜中位居榜首，而 Playground AI 的 v2.5 则在开源模型中领先。

FLUX 模型由 Black Forest Labs 开发，这是一家由 Stable Diffusion 原班人马创立的公司。FLUX 模型基于最新的 Transformer 架构，拥有数十亿参数，使其能够生成高分辨率和高质量的图像。FLUX 的设计目标是为开发者和研究人员提供一个工具，以便他们能够创建图像生成应用。

FLUX 模型包含三个变体：

Pro 版本：适用于需要高质量图像生成的专业应用。
Dev 版本：开放给非商业用途的研究和开发。
Schnell 版本：优化了速度，适合本地开发和个人项目。

在技术细节方面，FLUX 模型采用了多模态和并行扩散 Transformer 块的混合架构，扩展到 12B 参数。这种方法利用了流匹配技术，改进了之前的扩散模型，提供了性能和硬件效率。旋转位置嵌入和并行注意力层的引入进一步增强了模型的能力。

用户体验方面，FLUX 模型在多个维度上表现出色。在严格的基准测试评估中，FLUX 达到了 MidJourney v6.1、DALL-E 3 和 SD3 Ultra 等已建立模型的能力，包括视觉质量、对提示的遵循、尺寸和纵横比的灵活性、排版能力和输出的多样性。

MidJourney v6.1 是 MidJourney 团队最新发布的图像生成模型。该模型在多个方面进行了改进，包括更连贯的图像、更好的图像质量和更精确的细节。MidJourney 创始人 David Holz 在 MidJourney Discord 服务器上表示，v6.1 是 “在我们的人工智能超级集群上从头开始训练的第三个模型”，花了九个月的时间开发。

MidJourney v6.1 的一个显著特点是其对提示的理解更加精准，这意味着用户不再需要使用那些奇怪的短语或单词。例如，用户可以通过简单的提示词生成更加真实的图像，而不需要输入复杂的描述性单词。

在用户体验方面，MidJourney v6.1 的图像质量得到了广泛认可。MidJourney v6.1 在生成群像时仍存在一些挑战。用户测试发现，在生成很多人和群像时，输出结果中的人物往往显得抽象，四肢数量不对，向同一个方向延伸。

FLUX 和 MidJourney v6.1 的竞争将推动图像生成技术的发展。FLUX 在文字生成和复杂指令遵循方面表现出色，而 MidJourney v6.1 则在图像质量和细节处理上占据优势。两者各有特点，用户可以根据自己的需求选择模型。