Cosine 公司推出 Genie，SWE-Bench 评估得分 30.08% 创纪录

2024 年 8 月 12 日，Cosine 公司宣布推出其最新的 AI 编程模型 Genie。Genie 在 SWE-Bench 评估中取得了 30.08% 的最高分，远超之前的记录，提升了 SOTA 的最大增幅 ——57%。据悉，Genie 已经观察并学习了数百万次人类程序员解决软件问题的过程。

Genie 背后的团队 ——Cosine，仅由五人组成。Cosine 的 CEO Alistair Pullen 在社交媒体上发文感谢 OpenAI，称 “没有你们，我们做不出来 Genie”。这一消息在社交媒体上引发了讨论。

Genie 的技术细节和训练数据是其成功的关键。Cosine 公司采用了一种独特的方法来训练 Genie，即通过专有数据进行训练，这些数据编码了人类程序员的推理过程。具体来说，Genie 在数十亿字节的数据上进行了训练，这些数据涵盖了信息脉络、知识发现以及从软件工程师工作的真实案例中得出的逐步决策。这种方法使得 Genie 能够模拟人类的推理过程，从而在 SWE-Bench 评估中取得了成绩。

Genie 能够解决软件中的 bug，构建新功能、重构代码，并且可以与人类开发者协作完成任务。它的能力超过目前市场上的其他 AI 编程助手，如 Devin 和 Amazon Q Developer。Devin 在 SWE-Bench 评估中的得分为 13.86%，而 Amazon Q Developer 的得分则低于 20%。

Cosine 公司在融资方面也取得了进展。近日，Cosine 宣布完成了一轮 250 万美元的种子轮融资，资金将用于进一步开发其 AI 编程助手 Genie。这轮融资由美国的风险投资公司 Uphonest 和 SOMA Capital 领投，Lakestar 和 Focal 等公司也参与了投资。

市场对 Genie 的反响也很积极。许多公司表示有兴趣引入 Genie，以提高其开发团队的效率。一家大型科技公司的 CTO 在 LinkedIn 上写道：“我们正在考虑将其引入我们的开发流程中，以提高我们的开发效率。” 另一家初创公司的 CEO 则表示：“我们非常期待与 Cosine 合作。”

Genie 的推出也引发了竞争对手的关注。Cognition AI 的 Devin 和 Amazon Q Developer 在 SWE-Bench 评估中的得分均低于 20%。Cognition AI 的 CEO Scott Wu 在接受采访时表示：“我们对 Genie 的表现表示祝贺，但我们也在不断改进我们的模型，争取在未来的评估中取得更好的成绩。”Amazon Web Services 的代表也表示：“我们将继续投资于 AI 编程助手的研发，以保持我们的竞争力。”