2024 年 5 月 14 日,OpenAI 在一场线上发布会上推出了其最新的生成式 AI 模型 ——GPT-4o。此次发布会吸引了科技圈的广泛关注。GPT-4o 的 “o” 代表 “omni”,意为全能,标志着 OpenAI 在自然人机交互领域迈出了关键一步。发布会上,OpenAI 展示了 GPT-4o 在文本、视觉和音频处理方面的能力,特别是在音频处理领域,GPT-4o 通过跨文本、视觉和音频端到端训练的新模型,实现了所有输入和输出由同一个神经网络处理,解决了过往独立模型之间的延迟问题。
GPT-4o 的多模态输入输出能力是其一大亮点。它可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。这一特性使得 ChatGPT 能够处理 50 种不同的语言,同时提高了速度和质量。
在反应速度上,GPT-4o 表现出色。它可以在短短 232 毫秒内响应音频输入,平均响应时长也仅有 320 毫秒。相比之下,GPT-3.5 语音对话的平均延迟为 2.8 秒、GPT-4 为 5.4 秒。GPT-4o 具备对 “情绪价值” 的提供能力,例如,它能够从急促的喘气声中理解 “紧张” 的含义,并指导用户进行深呼吸,还可以根据用户要求变换语调。
OpenAI 宣布,所有用户均可免费使用 GPT-4o 模型,而付费用户的容量限制是免费用户的 5 倍。GPT-4o 的文本和图像功能已经开始向付费的 ChatGPT Plus 和 Team 用户推出,企业用户也即将推出。免费用户也将开始使用,但有使用限制。
在 API 使用方面,OpenAI 首席技术官米拉・穆拉蒂表示,相比去年 11 月发布的 GPT-4-turbo,GPT-4o 价格降低一半,速度提升两倍。GPT-4o 的语音和视频输入功能将在未来几周内推出。
除了 GPT-4o 模型,OpenAI 还发布了桌面版的 ChatGPT 和新的用户界面。新的用户界面设计简洁直观,用户可以更方便地进行多模态输入和输出操作。
此前有传言称 OpenAI 将推出 AI 搜索引擎和 GPT-5,但在发布会上,OpenAI 表示不会发布 GPT-5,也不会发布搜索引擎产品。OpenAI 表示,技术能力并不是跟着数字线性增长的,GPT-4o 虽然还 “姓” 4,但已经能看到清晰的技术特点和可能的商业模式以及后续发展潜力。

