在视觉生成领域,现有的评价指标无法全面反映生成图片或者视频的质量。为了解决这个问题,加拿大滑铁卢大学的研究团队推出了 “GenAI Arena”,通过人为判定来评估视觉模型的生成质量,填补了现有评价指标的空白。
使用 GenAI Arena 非常简单 —— 进入链接,输入你想要生成画面的提示词。生成画面后,你只需选择你认为更好的画面即可。每次的比较是任意两个生成模型之间进行的,采用 “盲测” 的形式,你可以选择 A 更好还是 B 更好,选择后系统会公布这两个模型的名称。
具体而言,平台内置了 27 个开源视觉模型,涵盖了三个主要领域:文生图、图像编辑和文生视频。切换不同领域的方法就是点击顶部的 “Image Generation”(文生图)、“Image Edition”(图像编辑)和 “Video Generation”(文生视频)选项卡来切换不同的领域。
需要注意的是,经网友测试发现,如果在输入 Prompt 后提示 GPU 超出配额,可能是服务器过载。此时,可以点击 “Random sample” 按钮,随机输入提示词进行生成。
GenAI Arena 的推出背景源于视觉生成领域评价指标的不足。现有的自动化评估方法,如 FID、CLIP、FVD 等,虽然在某些方面提供了有价值的洞察,但在捕捉生成内容的细微质量和用户满意度方面往往不足。滑铁卢大学的研究团队意识到这一点,决定通过人为判定来填补这一空白。
自平台上线以来,已经收集了超过 6000 个社区投票。与其他评测平台相比,GenAI Arena 的独特之处在于其人为判定的评估方法。传统的评估指标如 PSNR、SSIM、LPIPS 等虽然在某些方面提供了有价值的洞察,但在捕捉生成内容的细微质量和用户满意度方面往往不足。GenAI Arena 通过用户的集体反馈和投票,提供了一个不同的模型性能评估方法。