Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Cosine 公司推出 Genie,SWE-Bench 得分 30.08% 创历史新高

Cosine 公司推出 Genie,SWE-Bench 得分 30.08% 创历史新高

2024-08-13

2024 年 8 月 13 日,Cosine 公司宣布推出其最新的编程模型 Genie。Genie 在 SWE-Bench 评估中获得了 30.08% 的最高分,在 SWE-Lite 评估中获得了 50.67% 的最高分。Genie 是基于 OpenAI 的模型进行微调的,通过专有数据进行训练,这些数据编码了人类推理过程,涵盖了信息脉络、知识发现以及从软件工程师工作的真实案例中得出的逐步决策。Cosine 公司的目标是通过 Genie 提升人类在各种工作中的推理能力,首要目标是编程领域。

Cosine 公司近日宣布完成了一轮 250 万美元的种子轮融资,资金将用于进一步开发其 AI 编程助手 Genie。这轮融资由美国的风险投资公司 Uphonest 和 SOMA Capital 领投,Lakestar 和 Focal 等公司也参与了投资。Cosine 公司表示,Genie 在 SWE-Bench 测试中取得了 30% 的得分,这一成绩比之前的最高分提高了 56%,其他 AI 开发者模型如 Cognition AI Inc. 的 Devin 和 Amazon Web Services Inc. 的 Amazon Q Developer 在 SWE-Bench 测试中的得分均低于 20%。

Genie 的开发离不开 Cosine 公司创始团队的努力。公司由首席执行官 Alistair Pullen、首席运营官 Yang Li 和首席信息官 Sam Stenner 共同创立。团队在 2022 年初意识到大型语言模型在模仿人类软件开发者方面的潜力,并通过编码人类推理过程来训练 Genie 的底层大语言模型。Genie 被设计为一个能够解决 bug、构建新软件功能、重构代码以及执行许多其他与编程相关的任务的工具,无论是完全自主还是与人类开发者合作。

SWE-Bench 是一个评估 AI 编程模型的软件工程基准测试框架,包含 2294 个从 GitHub 问题和相应的 pull requests 中提取的软件工程问题。SWE-Bench 的目的是测试 AI 系统编写真实代码的能力。每个 SWE-Bench 实例都包含一个 GitHub 问题和解决该问题的拉取请求,拉取请求必须包含一个单元测试,该测试在代码更改之前失效并在代码更改之后通过。

SWE-Bench 的测试内容包括软件架构任务,如调试问题和在现有代码库中实现新功能。评估系统根据 GitHub 问题描述和存储库生成 diff,如果在修补编辑后所有单元测试都通过,则该示例被认为是成功的。SWE-Bench 的评估方法与 HumanEval 等仅限于独立功能的基准测试不同,它确定性地评估系统解决现实世界代码库问题的能力。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5