Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

OpenAI 高级语音模式上线,五种新声音和 50 种语言支持!

2024-09-25

在 2024 年 9 月 25 日,OpenAI 宣布其高级语音模式将在本周内向所有 ChatGPT Plus 和 Teams 用户全量推送。这一更新引入了自定义指令、记忆功能、五种新声音,并改进了口音处理能力。该功能还支持用超过 50 种语言表达 “对不起我迟到了”。然而,高级语音模式暂未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登地区推出。

此次更新增加了五种新声音 ——Arbor、Maple、Sol、Spruce 和 Vale,并改进了口音处理能力,使得用户可以用超过 50 种语言进行交流。技术上,高级语音模式由 OpenAI 的 GPT-4o 模型提供支持,该模型结合了语音、文本和视觉功能。用户可以通过自定义指令和记忆功能来个性化他们的互动体验。例如,用户可以设置特定的指令来触发特定的响应,或者让 ChatGPT 记住某些偏好和历史对话内容,从而提供更个性化的服务。

高级语音模式也面临一些挑战和限制。首先,该功能目前仅向 ChatGPT Plus 和 Teams 用户开放,且暂未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登地区推出。此外,尽管新功能在口音处理和多语言支持上有改进,但仍有用户反映对话感觉机械化,缺乏人性化的互动体验。

高级语音模式的开发背景可以追溯到 OpenAI 在语音交互技术上的长期研究和积累。早在 2023 年,OpenAI 就开始探索如何通过 AI 技术提升语音交互的自然度和互动性。此次推出的高级语音模式是这一研究的最新成果。在开发过程中,OpenAI 面临了诸多技术挑战。首先是语音识别和生成的准确性问题。为了确保高级语音模式能够准确理解和生成自然的语音,OpenAI 采用了最新的 GPT-4o 模型,该模型结合了语音、文本和视觉功能,能够更好地理解和响应用户的语音输入。此外,OpenAI 还通过大量的数据训练和优化,提升了模型的口音处理能力,使其能够支持超过 50 种语言的交流。

另一个技术挑战是实时响应和情感识别。为了实现这一目标,OpenAI 在模型中引入了情感识别和实时响应技术,使得 ChatGPT 能够根据用户的语气和情绪变化进行调整。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5