Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
ChatGPT 高级语音模式上线,用户测试唱 Rap 和学猫叫!

ChatGPT 高级语音模式上线,用户测试唱 Rap 和学猫叫!

2024-08-02

ChatGPT 的高级语音模式正式上线,新模式的亮点在于更自然的语音对话和情感识别功能。用户们开始测试这个新功能,有的让 ChatGPT 唱 Rap,有的让它学猫叫,甚至还有人要求它用中文讲故事。特别是在中文表现上,虽然偶尔会有些发音的小瑕疵,但整体效果依旧令人满意。

OpenAI 最新推出的 GPT-4o 模型,不仅能处理文本,还能处理音频和图像。这种多模态能力让 GPT-4o 在应对复杂任务时更加得心应手。它可以在对话中同时理解和生成语音、文本和图像,提供更丰富和自然的互动体验。GPT-4o 的语音模式采用了单一模型来完成语音到文本、文本到语音的转换,这大大降低了对话的延迟,让用户体验更流畅。具体来说,GPT-4o 能在没有辅助模型的情况下直接处理语音输入并生成语音输出。这种端到端的处理方式不仅提升了响应速度,还增强了对语音情感和语调的识别能力。

相比旧模式,GPT-4o 的语音模式有显著改进。以往的模式依赖三个独立的模型:一个将语音转换为文本,GPT-4 处理文本输入,最后一个模型将文本转换为语音。这种多模型处理方式容易导致较高的延迟和信息丢失。而 GPT-4o 则整合了这些功能,显著提升响应速度和对话自然度。

在用户测试中,GPT-4o 展现了强大的语音生成能力。有用户要求 GPT-4o 表演 Rap、学猫叫等,它都能流畅完成,并且表现得相当自然。这些测试结果显示了 GPT-4o 在处理多样化语音任务方面的能力。在中文语音识别和生成方面,GPT-4o 也表现出色。用户表示,GPT-4o 能准确理解和生成中文语音,虽然在某些发音上仍有一些不准确的地方,但整体表现已经接近真人对话。

GPT-4o 的一大亮点在于其情感识别和快速响应能力。相比之前的版本,GPT-4o 能更准确地捕捉用户语音中的情感变化,并迅速做出相应的回应。这种能力让与 AI 的互动更加自然。虽然 GPT-4o 在情感识别和响应速度方面表现出色,但技术实现过程中还是有些挑战。语音识别的准确性和延迟问题仍需进一步优化。尽管 GPT-4o 的响应时间已经大幅缩短,但在某些复杂场景下,仍可能出现识别错误或延迟。这些问题需要通过不断的技术改进来解决。

在 GPT-4o 的演示中,有些语音与斯嘉丽・约翰逊的声音相似,导致她采取了法律行动。斯嘉丽・约翰逊表示,她多次拒绝 OpenAI CEO 山姆・奥特曼关于使用她声音的请求,并在看到 GPT-4o 的演示后,聘请了法律顾问为自己的声音辩护。尽管 OpenAI 否认使用了她的声音,但还是删除了演示中的相关语音。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5