2024 年 8 月 12 日,Cosine 公司宣布推出其最新的 AI 编程模型 Genie。Genie 在 SWE-Bench 评估中取得了 30.08% 的最高分,远超之前的记录,提升了 SOTA 的最大增幅 ——57%。据悉,Genie 已经观察并学习了数百万次人类程序员解决软件问题的过程。
Genie 背后的团队 ——Cosine,仅由五人组成。Cosine 的 CEO Alistair Pullen 在社交媒体上发文感谢 OpenAI,称 “没有你们,我们做不出来 Genie”。这一消息在社交媒体上引发了讨论。
Genie 的技术细节和训练数据是其成功的关键。Cosine 公司采用了一种独特的方法来训练 Genie,即通过专有数据进行训练,这些数据编码了人类程序员的推理过程。具体来说,Genie 在数十亿字节的数据上进行了训练,这些数据涵盖了信息脉络、知识发现以及从软件工程师工作的真实案例中得出的逐步决策。这种方法使得 Genie 能够模拟人类的推理过程,从而在 SWE-Bench 评估中取得了成绩。
Genie 能够解决软件中的 bug,构建新功能、重构代码,并且可以与人类开发者协作完成任务。它的能力超过目前市场上的其他 AI 编程助手,如 Devin 和 Amazon Q Developer。Devin 在 SWE-Bench 评估中的得分为 13.86%,而 Amazon Q Developer 的得分则低于 20%。
Cosine 公司在融资方面也取得了进展。近日,Cosine 宣布完成了一轮 250 万美元的种子轮融资,资金将用于进一步开发其 AI 编程助手 Genie。这轮融资由美国的风险投资公司 Uphonest 和 SOMA Capital 领投,Lakestar 和 Focal 等公司也参与了投资。
市场对 Genie 的反响也很积极。许多公司表示有兴趣引入 Genie,以提高其开发团队的效率。一家大型科技公司的 CTO 在 LinkedIn 上写道:“我们正在考虑将其引入我们的开发流程中,以提高我们的开发效率。” 另一家初创公司的 CEO 则表示:“我们非常期待与 Cosine 合作。”
Genie 的推出也引发了竞争对手的关注。Cognition AI 的 Devin 和 Amazon Q Developer 在 SWE-Bench 评估中的得分均低于 20%。Cognition AI 的 CEO Scott Wu 在接受采访时表示:“我们对 Genie 的表现表示祝贺,但我们也在不断改进我们的模型,争取在未来的评估中取得更好的成绩。”Amazon Web Services 的代表也表示:“我们将继续投资于 AI 编程助手的研发,以保持我们的竞争力。”

