ChatGPT 加持！Azure AI Speech 实时语音合成更流畅

微软近日对其 Azure AI Speech 服务进行了更新，增强了文本转语音（TTS）功能。这次更新支持更多语言和声音，并为呼叫中心场景设计了更加自然、真实的互动语音。用户可以在 Speech Studio 中访问更多预设的数字人形象，这些形象覆盖了多种文化和身份。通过 Azure OpenAI API，这些新功能提升了视频创建和实时聊天的体验。结合语音 SDK，用户可以实现文本到语音的转换，在与聊天机器人交互中实时合成语音，或批量制作创意视频。

新的文本流 API 集成了 ChatGPT，实现了更快、更流畅的实时语音合成，减少了延迟。此次更新带来了多项具体功能。首先，支持的语言和声音种类增加，用户可以选择更贴近目标受众的语音风格和语言。其次，特别为呼叫中心设计的语音功能，使得客户服务更加自然和高效，减少了人工干预的需求。用户在 Speech Studio 中可以访问更多预设的数字人形象，这些形象覆盖了多种文化和身份，并能根据具体需求进行定制。通过 Azure OpenAI API，这些数字人形象在视频创建和实时聊天中发挥作用。结合语音 SDK，用户可以实现文本到语音的转换，实时合成语音功能使得聊天机器人能够即时回应用户的语音输入。此外，用户还可以批量制作创意视频。

在语音合成技术领域，微软的 Azure AI Speech 与其他竞争对手如科大讯飞、Google AI 等展开了竞争。科大讯飞在超拟人语音合成技术上有着积累，其最新的星火语音大模型在语音的自然度和情感表达上表现出色。微软的 Azure AI Speech 在多语言支持和实时语音合成方面具有优势。Azure AI Speech 的语音合成技术基于生成式 AI 模型，能够生成高质量、自然流畅的语音输出。通过结合 Azure OpenAI API，用户可以利用这些模型进行多种应用场景的开发，如语音助手、有声读物、教育工具等。微软还提供了详细的快速入门指南，帮助开发者快速上手并集成这些功能。

在用户案例方面，许多企业已经开始使用 Azure AI Speech 来提升其业务效率和用户体验。例如，好未来教育集团在其 “九章随时问” 小程序中广泛采用了微软 Azure 提供的高精准 ASR 和超拟人 TTS 技术。这些技术使得 AI 老师能够与学生进行自然的语音交流。另一个案例是 Truecaller 与微软 Azure AI Speech 的合作。Truecaller 助手能够使用用户的声音自动接听电话、筛选来电、留言，并代用户回复或录音。