OpenAI 发布 GPT-4o：多模态 AI 模型，反应速度提升 10 倍！

2024 年 5 月 14 日，OpenAI 在一场线上发布会上推出了其最新的生成式 AI 模型 ——GPT-4o。此次发布会吸引了科技圈的广泛关注。GPT-4o 的 “o” 代表 “omni”，意为全能，标志着 OpenAI 在自然人机交互领域迈出了关键一步。发布会上，OpenAI 展示了 GPT-4o 在文本、视觉和音频处理方面的能力，特别是在音频处理领域，GPT-4o 通过跨文本、视觉和音频端到端训练的新模型，实现了所有输入和输出由同一个神经网络处理，解决了过往独立模型之间的延迟问题。

GPT-4o 的多模态输入输出能力是其一大亮点。它可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。这一特性使得 ChatGPT 能够处理 50 种不同的语言，同时提高了速度和质量。

在反应速度上，GPT-4o 表现出色。它可以在短短 232 毫秒内响应音频输入，平均响应时长也仅有 320 毫秒。相比之下，GPT-3.5 语音对话的平均延迟为 2.8 秒、GPT-4 为 5.4 秒。GPT-4o 具备对 “情绪价值” 的提供能力，例如，它能够从急促的喘气声中理解 “紧张” 的含义，并指导用户进行深呼吸，还可以根据用户要求变换语调。

OpenAI 宣布，所有用户均可免费使用 GPT-4o 模型，而付费用户的容量限制是免费用户的 5 倍。GPT-4o 的文本和图像功能已经开始向付费的 ChatGPT Plus 和 Team 用户推出，企业用户也即将推出。免费用户也将开始使用，但有使用限制。

在 API 使用方面，OpenAI 首席技术官米拉・穆拉蒂表示，相比去年 11 月发布的 GPT-4-turbo，GPT-4o 价格降低一半，速度提升两倍。GPT-4o 的语音和视频输入功能将在未来几周内推出。

除了 GPT-4o 模型，OpenAI 还发布了桌面版的 ChatGPT 和新的用户界面。新的用户界面设计简洁直观，用户可以更方便地进行多模态输入和输出操作。

此前有传言称 OpenAI 将推出 AI 搜索引擎和 GPT-5，但在发布会上，OpenAI 表示不会发布 GPT-5，也不会发布搜索引擎产品。OpenAI 表示，技术能力并不是跟着数字线性增长的，GPT-4o 虽然还 “姓” 4，但已经能看到清晰的技术特点和可能的商业模式以及后续发展潜力。