Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Cosine 公司推出 Genie,SWE-Bench 评估得分 30.08% 创纪录

Cosine 公司推出 Genie,SWE-Bench 评估得分 30.08% 创纪录

2024-08-13

2024 年 8 月 12 日,Cosine 公司宣布推出其最新的 AI 编程模型 Genie。Genie 在 SWE-Bench 评估中取得了 30.08% 的最高分,远超之前的记录,提升了 SOTA 的最大增幅 ——57%。据悉,Genie 已经观察并学习了数百万次人类程序员解决软件问题的过程。

Genie 背后的团队 ——Cosine,仅由五人组成。Cosine 的 CEO Alistair Pullen 在社交媒体上发文感谢 OpenAI,称 “没有你们,我们做不出来 Genie”。这一消息在社交媒体上引发了讨论。

Genie 的技术细节和训练数据是其成功的关键。Cosine 公司采用了一种独特的方法来训练 Genie,即通过专有数据进行训练,这些数据编码了人类程序员的推理过程。具体来说,Genie 在数十亿字节的数据上进行了训练,这些数据涵盖了信息脉络、知识发现以及从软件工程师工作的真实案例中得出的逐步决策。这种方法使得 Genie 能够模拟人类的推理过程,从而在 SWE-Bench 评估中取得了成绩。

Genie 能够解决软件中的 bug,构建新功能、重构代码,并且可以与人类开发者协作完成任务。它的能力超过目前市场上的其他 AI 编程助手,如 Devin 和 Amazon Q Developer。Devin 在 SWE-Bench 评估中的得分为 13.86%,而 Amazon Q Developer 的得分则低于 20%。

Cosine 公司在融资方面也取得了进展。近日,Cosine 宣布完成了一轮 250 万美元的种子轮融资,资金将用于进一步开发其 AI 编程助手 Genie。这轮融资由美国的风险投资公司 Uphonest 和 SOMA Capital 领投,Lakestar 和 Focal 等公司也参与了投资。

市场对 Genie 的反响也很积极。许多公司表示有兴趣引入 Genie,以提高其开发团队的效率。一家大型科技公司的 CTO 在 LinkedIn 上写道:“我们正在考虑将其引入我们的开发流程中,以提高我们的开发效率。” 另一家初创公司的 CEO 则表示:“我们非常期待与 Cosine 合作。”

Genie 的推出也引发了竞争对手的关注。Cognition AI 的 Devin 和 Amazon Q Developer 在 SWE-Bench 评估中的得分均低于 20%。Cognition AI 的 CEO Scott Wu 在接受采访时表示:“我们对 Genie 的表现表示祝贺,但我们也在不断改进我们的模型,争取在未来的评估中取得更好的成绩。”Amazon Web Services 的代表也表示:“我们将继续投资于 AI 编程助手的研发,以保持我们的竞争力。”

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5