ChatGPT 高级语音模式上线，用户测试唱 Rap 和学猫叫！

ChatGPT 的高级语音模式正式上线，新模式的亮点在于更自然的语音对话和情感识别功能。用户们开始测试这个新功能，有的让 ChatGPT 唱 Rap，有的让它学猫叫，甚至还有人要求它用中文讲故事。特别是在中文表现上，虽然偶尔会有些发音的小瑕疵，但整体效果依旧令人满意。

OpenAI 最新推出的 GPT-4o 模型，不仅能处理文本，还能处理音频和图像。这种多模态能力让 GPT-4o 在应对复杂任务时更加得心应手。它可以在对话中同时理解和生成语音、文本和图像，提供更丰富和自然的互动体验。GPT-4o 的语音模式采用了单一模型来完成语音到文本、文本到语音的转换，这大大降低了对话的延迟，让用户体验更流畅。具体来说，GPT-4o 能在没有辅助模型的情况下直接处理语音输入并生成语音输出。这种端到端的处理方式不仅提升了响应速度，还增强了对语音情感和语调的识别能力。

相比旧模式，GPT-4o 的语音模式有显著改进。以往的模式依赖三个独立的模型：一个将语音转换为文本，GPT-4 处理文本输入，最后一个模型将文本转换为语音。这种多模型处理方式容易导致较高的延迟和信息丢失。而 GPT-4o 则整合了这些功能，显著提升响应速度和对话自然度。

在用户测试中，GPT-4o 展现了强大的语音生成能力。有用户要求 GPT-4o 表演 Rap、学猫叫等，它都能流畅完成，并且表现得相当自然。这些测试结果显示了 GPT-4o 在处理多样化语音任务方面的能力。在中文语音识别和生成方面，GPT-4o 也表现出色。用户表示，GPT-4o 能准确理解和生成中文语音，虽然在某些发音上仍有一些不准确的地方，但整体表现已经接近真人对话。

GPT-4o 的一大亮点在于其情感识别和快速响应能力。相比之前的版本，GPT-4o 能更准确地捕捉用户语音中的情感变化，并迅速做出相应的回应。这种能力让与 AI 的互动更加自然。虽然 GPT-4o 在情感识别和响应速度方面表现出色，但技术实现过程中还是有些挑战。语音识别的准确性和延迟问题仍需进一步优化。尽管 GPT-4o 的响应时间已经大幅缩短，但在某些复杂场景下，仍可能出现识别错误或延迟。这些问题需要通过不断的技术改进来解决。

在 GPT-4o 的演示中，有些语音与斯嘉丽・约翰逊的声音相似，导致她采取了法律行动。斯嘉丽・约翰逊表示，她多次拒绝 OpenAI CEO 山姆・奥特曼关于使用她声音的请求，并在看到 GPT-4o 的演示后，聘请了法律顾问为自己的声音辩护。尽管 OpenAI 否认使用了她的声音，但还是删除了演示中的相关语音。