Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
OpenAI 发布 SWE-bench Verified,GPT-4o 性能提升至 33.2%

OpenAI 发布 SWE-bench Verified,GPT-4o 性能提升至 33.2%

2024-08-14

2024 年 8 月 13 日,OpenAI 发布了 SWE-bench Verified,这是一个经过人类验证的 SWE-bench 基准子集,旨在更准确地评估 AI 模型解决实际软件问题的能力。SWE-bench Verified 通过过滤掉有问题的样本,解决了原始 SWE-bench 中的问题,如过于具体的单元测试和模糊的问题描述,从而提供了更可靠的评估数据集。

在 SWE-bench Verified 上,GPT-4o 提高了其性能,解决了 33.2% 的样本。此外,SWE-bench Verified 还引入了一些新的评估标准,以更全面地评估 AI 模型的能力。例如,新的基准测试不仅关注模型解决问题的准确性,还考虑了模型在解决问题过程中的效率和稳定性。

GPT-4o 在 SWE-bench Verified 上的表现尤为突出。GPT-4o 不仅在解决实际软件问题的能力上取得了提升,还展示了其在多模态输入和输出方面的能力。GPT-4o 能够处理文本、音频和图像的任意组合输入,并生成相应的输出。在 SWE-bench Verified 的测试中,GPT-4o 解决了 33.2% 的样本,高于其他模型的表现。这一结果验证了 SWE-bench Verified 作为评估基准的有效性。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5