ChatGPT 的高级语音模式正式上线,新模式的亮点在于更自然的语音对话和情感识别功能。用户们开始测试这个新功能,有的让 ChatGPT 唱 Rap,有的让它学猫叫,甚至还有人要求它用中文讲故事。特别是在中文表现上,虽然偶尔会有些发音的小瑕疵,但整体效果依旧令人满意。
OpenAI 最新推出的 GPT-4o 模型,不仅能处理文本,还能处理音频和图像。这种多模态能力让 GPT-4o 在应对复杂任务时更加得心应手。它可以在对话中同时理解和生成语音、文本和图像,提供更丰富和自然的互动体验。GPT-4o 的语音模式采用了单一模型来完成语音到文本、文本到语音的转换,这大大降低了对话的延迟,让用户体验更流畅。具体来说,GPT-4o 能在没有辅助模型的情况下直接处理语音输入并生成语音输出。这种端到端的处理方式不仅提升了响应速度,还增强了对语音情感和语调的识别能力。
相比旧模式,GPT-4o 的语音模式有显著改进。以往的模式依赖三个独立的模型:一个将语音转换为文本,GPT-4 处理文本输入,最后一个模型将文本转换为语音。这种多模型处理方式容易导致较高的延迟和信息丢失。而 GPT-4o 则整合了这些功能,显著提升响应速度和对话自然度。
在用户测试中,GPT-4o 展现了强大的语音生成能力。有用户要求 GPT-4o 表演 Rap、学猫叫等,它都能流畅完成,并且表现得相当自然。这些测试结果显示了 GPT-4o 在处理多样化语音任务方面的能力。在中文语音识别和生成方面,GPT-4o 也表现出色。用户表示,GPT-4o 能准确理解和生成中文语音,虽然在某些发音上仍有一些不准确的地方,但整体表现已经接近真人对话。
GPT-4o 的一大亮点在于其情感识别和快速响应能力。相比之前的版本,GPT-4o 能更准确地捕捉用户语音中的情感变化,并迅速做出相应的回应。这种能力让与 AI 的互动更加自然。虽然 GPT-4o 在情感识别和响应速度方面表现出色,但技术实现过程中还是有些挑战。语音识别的准确性和延迟问题仍需进一步优化。尽管 GPT-4o 的响应时间已经大幅缩短,但在某些复杂场景下,仍可能出现识别错误或延迟。这些问题需要通过不断的技术改进来解决。
在 GPT-4o 的演示中,有些语音与斯嘉丽・约翰逊的声音相似,导致她采取了法律行动。斯嘉丽・约翰逊表示,她多次拒绝 OpenAI CEO 山姆・奥特曼关于使用她声音的请求,并在看到 GPT-4o 的演示后,聘请了法律顾问为自己的声音辩护。尽管 OpenAI 否认使用了她的声音,但还是删除了演示中的相关语音。