OpenAI 高级语音模式上线，五种新声音和 50 种语言支持！

在 2024 年 9 月 25 日，OpenAI 宣布其高级语音模式将在本周内向所有 ChatGPT Plus 和 Teams 用户全量推送。这一更新引入了自定义指令、记忆功能、五种新声音，并改进了口音处理能力。该功能还支持用超过 50 种语言表达 “对不起我迟到了”。然而，高级语音模式暂未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登地区推出。

此次更新增加了五种新声音 ——Arbor、Maple、Sol、Spruce 和 Vale，并改进了口音处理能力，使得用户可以用超过 50 种语言进行交流。技术上，高级语音模式由 OpenAI 的 GPT-4o 模型提供支持，该模型结合了语音、文本和视觉功能。用户可以通过自定义指令和记忆功能来个性化他们的互动体验。例如，用户可以设置特定的指令来触发特定的响应，或者让 ChatGPT 记住某些偏好和历史对话内容，从而提供更个性化的服务。

高级语音模式也面临一些挑战和限制。首先，该功能目前仅向 ChatGPT Plus 和 Teams 用户开放，且暂未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登地区推出。此外，尽管新功能在口音处理和多语言支持上有改进，但仍有用户反映对话感觉机械化，缺乏人性化的互动体验。

高级语音模式的开发背景可以追溯到 OpenAI 在语音交互技术上的长期研究和积累。早在 2023 年，OpenAI 就开始探索如何通过 AI 技术提升语音交互的自然度和互动性。此次推出的高级语音模式是这一研究的最新成果。在开发过程中，OpenAI 面临了诸多技术挑战。首先是语音识别和生成的准确性问题。为了确保高级语音模式能够准确理解和生成自然的语音，OpenAI 采用了最新的 GPT-4o 模型，该模型结合了语音、文本和视觉功能，能够更好地理解和响应用户的语音输入。此外，OpenAI 还通过大量的数据训练和优化，提升了模型的口音处理能力，使其能够支持超过 50 种语言的交流。

另一个技术挑战是实时响应和情感识别。为了实现这一目标，OpenAI 在模型中引入了情感识别和实时响应技术，使得 ChatGPT 能够根据用户的语气和情绪变化进行调整。