今天凌晨 1:34 分,OpenAI 推出 GPT-4o mini,更智能且更实惠。
比较有意思的是,著名的前 OpenAI 研究员、 前特斯拉自动驾驶视觉总监 Andrej Karpathy 说:「LLM 模型大小的竞争正在加剧……倒退!」
价格更低,能力那可不弱
这一次 GPT-4o mini 的发布,再一次牵动了大家的神经,毕竟,这次的模型相对于 GPT-3.5 Turbo,更优,成本更低。
GPT-4o mini 输入的价格为 0.15 美元/100 万 token,输出为 0.6 美元/100 万 token。这一价格不仅比市场上的其他 SOTA(State of the Art)模型便宜一个数量级,更比 OpenAI 之前的 GPT-3.5 Turbo 模型便宜了超过 60%。
OpenAI CEO ⼭姆・奥特曼对 GPT-4o mini 的价格形容为“too cheap to meter”,意味着其成本之低,几乎可以忽略不计。
更有趣的是,GPT-4o mini 被称为“韭菜”…
GPT-4o mini 在多个学术基准测试中展现了其卓越的性能。在 MMLU(多语言多任务语言理解)测试中,得分高达 82%,超越了 Gemini Flash 和 Claude Haiku 等其他小型模型。
GPT-4o mini 在数学推理和编码任务上同样表现不俗。在 MGSM(数学推理)测试中,它以 87.0% 的得分率领先于 Gemini Flash 的 75.5% 和 Claude Haiku 的 71.7%。在 HumanEval(编码性能)测试中,GPT-4o mini 以 87.2% 的得分率再次占据榜首,显示出其在编程逻辑和代码生成方面的高效率。
除了文本和数学推理,GPT-4o mini 在多模态推理方面也展现了强劲的性能。在 MMMU(多模态推理评估基准)测试中,GPT-4o mini 以 59.4% 的得分率领先,相比 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%,其优势明显。
开发者也没闲着,且大半是华人
正式宣传开始后,开发者就在 X 上开始宣传了,大张锣鼓,好不热闹。
按照惯例,OpenAI 还是在博客的末尾写下了本次的开发者。
GPT-4o mini 团队有 9 位核心成员,其中 5 位是华人面孔:
- Kevin Lu:2021 年从加州大学伯克利分校毕业,研究强化学习和序列建模,最近加入 OpenAI。
- Shengjia Zhao:2022 年加入 OpenAI,斯坦福大学计算机科学博士,清华大学本科,负责 ChatGPT 的训练和对齐。
- 任泓宇:去年加入 OpenAI,负责语言模型训练,是 GPT-4o 的核心开发者,本科北京大学,博士斯坦福大学。
- Haitang Hu:去年 9 月加入 OpenAI,本科同济大学,硕士约翰·霍普金斯大学,之前在 Google 工作了 7 年多,参与 TensorFlow 和大语言模型基础设施的研发。
- Mianna Chen:2023 年 12 月加入 OpenAI,项目经理,普林斯顿大学毕业,沃顿商学院 MBA,之前在 Google 和 DeepMind 担任产品经理。
其他核心成员:
- Jacob Menick:2022 年 9 月加入 OpenAI,是 GPT-4o mini 的技术总负责人,之前在 DeepMind 参与多个语言模型项目。
- Eric Wallace:去年 11 月加入 OpenAI,专注大模型的可靠性和安全性,目前在加州大学伯克利分校读博,之前在 DeepMind 和 Meta 实习。
- Nick Stathas:去年 5 月加入 OpenAI,经验涵盖高性能计算、机器学习、自动驾驶和嵌入式系统,麻省理工学院本硕,曾在 MIT Driverless 担任首席工程师。
- Felipe Petroski Such:2020 年加入 OpenAI,是 GPT-4o 的核心贡献者,之前在 Uber 担任研究科学家,罗切斯特理工学院计算机工程双学位。
最后
OpenAI 后续会推出 GPT-4o mini 微调版本。目前 GPT-4o mini 会在 ChatGPT 中替代 GPT-3.5 Turbo,Free、Plus 和 Team 用户今天起就能用上,企业用户下周也能用。
OpenAI 说过去几年 AI 进步很大,成本也降了不少。举个例子,从 2022 年的 text-davinci-003 到现在的 GPT-4o mini,每个 token 的成本下降了 99%。
需要注意的是,目前的 GPT-4o mini 疑似还有 bug,比如下面这位用户反馈,输入同一张图片,GPT-4o 的输入 token 为 500,而 GPT-4o mini 输入所耗的 token 为 14242,整整相差了 28 倍。
建议开发者们等一等再换 API,等这个问题有答复后再切换。