Cosine 公司推出 Genie，SWE-Bench 得分 30.08% 创历史新高

2024 年 8 月 13 日，Cosine 公司宣布推出其最新的编程模型 Genie。Genie 在 SWE-Bench 评估中获得了 30.08% 的最高分，在 SWE-Lite 评估中获得了 50.67% 的最高分。Genie 是基于 OpenAI 的模型进行微调的，通过专有数据进行训练，这些数据编码了人类推理过程，涵盖了信息脉络、知识发现以及从软件工程师工作的真实案例中得出的逐步决策。Cosine 公司的目标是通过 Genie 提升人类在各种工作中的推理能力，首要目标是编程领域。

Cosine 公司近日宣布完成了一轮 250 万美元的种子轮融资，资金将用于进一步开发其 AI 编程助手 Genie。这轮融资由美国的风险投资公司 Uphonest 和 SOMA Capital 领投，Lakestar 和 Focal 等公司也参与了投资。Cosine 公司表示，Genie 在 SWE-Bench 测试中取得了 30% 的得分，这一成绩比之前的最高分提高了 56%，其他 AI 开发者模型如 Cognition AI Inc. 的 Devin 和 Amazon Web Services Inc. 的 Amazon Q Developer 在 SWE-Bench 测试中的得分均低于 20%。

Genie 的开发离不开 Cosine 公司创始团队的努力。公司由首席执行官 Alistair Pullen、首席运营官 Yang Li 和首席信息官 Sam Stenner 共同创立。团队在 2022 年初意识到大型语言模型在模仿人类软件开发者方面的潜力，并通过编码人类推理过程来训练 Genie 的底层大语言模型。Genie 被设计为一个能够解决 bug、构建新软件功能、重构代码以及执行许多其他与编程相关的任务的工具，无论是完全自主还是与人类开发者合作。

SWE-Bench 是一个评估 AI 编程模型的软件工程基准测试框架，包含 2294 个从 GitHub 问题和相应的 pull requests 中提取的软件工程问题。SWE-Bench 的目的是测试 AI 系统编写真实代码的能力。每个 SWE-Bench 实例都包含一个 GitHub 问题和解决该问题的拉取请求，拉取请求必须包含一个单元测试，该测试在代码更改之前失效并在代码更改之后通过。

SWE-Bench 的测试内容包括软件架构任务，如调试问题和在现有代码库中实现新功能。评估系统根据 GitHub 问题描述和存储库生成 diff，如果在修补编辑后所有单元测试都通过，则该示例被认为是成功的。SWE-Bench 的评估方法与 HumanEval 等仅限于独立功能的基准测试不同，它确定性地评估系统解决现实世界代码库问题的能力。