视觉生成质量难评？试试滑铁卢大学的 GenAI Arena！

在视觉生成领域，现有的评价指标无法全面反映生成图片或者视频的质量。为了解决这个问题，加拿大滑铁卢大学的研究团队推出了 “GenAI Arena”，通过人为判定来评估视觉模型的生成质量，填补了现有评价指标的空白。

使用 GenAI Arena 非常简单 —— 进入链接，输入你想要生成画面的提示词。生成画面后，你只需选择你认为更好的画面即可。每次的比较是任意两个生成模型之间进行的，采用 “盲测” 的形式，你可以选择 A 更好还是 B 更好，选择后系统会公布这两个模型的名称。

具体而言，平台内置了 27 个开源视觉模型，涵盖了三个主要领域：文生图、图像编辑和文生视频。切换不同领域的方法就是点击顶部的 “Image Generation”（文生图）、“Image Edition”（图像编辑）和 “Video Generation”（文生视频）选项卡来切换不同的领域。

需要注意的是，经网友测试发现，如果在输入 Prompt 后提示 GPU 超出配额，可能是服务器过载。此时，可以点击 “Random sample” 按钮，随机输入提示词进行生成。

GenAI Arena 的推出背景源于视觉生成领域评价指标的不足。现有的自动化评估方法，如 FID、CLIP、FVD 等，虽然在某些方面提供了有价值的洞察，但在捕捉生成内容的细微质量和用户满意度方面往往不足。滑铁卢大学的研究团队意识到这一点，决定通过人为判定来填补这一空白。

自平台上线以来，已经收集了超过 6000 个社区投票。与其他评测平台相比，GenAI Arena 的独特之处在于其人为判定的评估方法。传统的评估指标如 PSNR、SSIM、LPIPS 等虽然在某些方面提供了有价值的洞察，但在捕捉生成内容的细微质量和用户满意度方面往往不足。GenAI Arena 通过用户的集体反馈和投票，提供了一个不同的模型性能评估方法。