Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
OpenAI 发布 GPT-4o:多模态 AI 模型,反应速度提升 10 倍!

OpenAI 发布 GPT-4o:多模态 AI 模型,反应速度提升 10 倍!

2024-08-14

2024 年 5 月 14 日,OpenAI 在一场线上发布会上推出了其最新的生成式 AI 模型 ——GPT-4o。此次发布会吸引了科技圈的广泛关注。GPT-4o 的 “o” 代表 “omni”,意为全能,标志着 OpenAI 在自然人机交互领域迈出了关键一步。发布会上,OpenAI 展示了 GPT-4o 在文本、视觉和音频处理方面的能力,特别是在音频处理领域,GPT-4o 通过跨文本、视觉和音频端到端训练的新模型,实现了所有输入和输出由同一个神经网络处理,解决了过往独立模型之间的延迟问题。

GPT-4o 的多模态输入输出能力是其一大亮点。它可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。这一特性使得 ChatGPT 能够处理 50 种不同的语言,同时提高了速度和质量。

在反应速度上,GPT-4o 表现出色。它可以在短短 232 毫秒内响应音频输入,平均响应时长也仅有 320 毫秒。相比之下,GPT-3.5 语音对话的平均延迟为 2.8 秒、GPT-4 为 5.4 秒。GPT-4o 具备对 “情绪价值” 的提供能力,例如,它能够从急促的喘气声中理解 “紧张” 的含义,并指导用户进行深呼吸,还可以根据用户要求变换语调。

OpenAI 宣布,所有用户均可免费使用 GPT-4o 模型,而付费用户的容量限制是免费用户的 5 倍。GPT-4o 的文本和图像功能已经开始向付费的 ChatGPT Plus 和 Team 用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。

在 API 使用方面,OpenAI 首席技术官米拉・穆拉蒂表示,相比去年 11 月发布的 GPT-4-turbo,GPT-4o 价格降低一半,速度提升两倍。GPT-4o 的语音和视频输入功能将在未来几周内推出。

除了 GPT-4o 模型,OpenAI 还发布了桌面版的 ChatGPT 和新的用户界面。新的用户界面设计简洁直观,用户可以更方便地进行多模态输入和输出操作。

此前有传言称 OpenAI 将推出 AI 搜索引擎和 GPT-5,但在发布会上,OpenAI 表示不会发布 GPT-5,也不会发布搜索引擎产品。OpenAI 表示,技术能力并不是跟着数字线性增长的,GPT-4o 虽然还 “姓” 4,但已经能看到清晰的技术特点和可能的商业模式以及后续发展潜力。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5