微软近日对其 Azure AI Speech 服务进行了更新,增强了文本转语音(TTS)功能。这次更新支持更多语言和声音,并为呼叫中心场景设计了更加自然、真实的互动语音。用户可以在 Speech Studio 中访问更多预设的数字人形象,这些形象覆盖了多种文化和身份。通过 Azure OpenAI API,这些新功能提升了视频创建和实时聊天的体验。结合语音 SDK,用户可以实现文本到语音的转换,在与聊天机器人交互中实时合成语音,或批量制作创意视频。
新的文本流 API 集成了 ChatGPT,实现了更快、更流畅的实时语音合成,减少了延迟。此次更新带来了多项具体功能。首先,支持的语言和声音种类增加,用户可以选择更贴近目标受众的语音风格和语言。其次,特别为呼叫中心设计的语音功能,使得客户服务更加自然和高效,减少了人工干预的需求。用户在 Speech Studio 中可以访问更多预设的数字人形象,这些形象覆盖了多种文化和身份,并能根据具体需求进行定制。通过 Azure OpenAI API,这些数字人形象在视频创建和实时聊天中发挥作用。结合语音 SDK,用户可以实现文本到语音的转换,实时合成语音功能使得聊天机器人能够即时回应用户的语音输入。此外,用户还可以批量制作创意视频。
在语音合成技术领域,微软的 Azure AI Speech 与其他竞争对手如科大讯飞、Google AI 等展开了竞争。科大讯飞在超拟人语音合成技术上有着积累,其最新的星火语音大模型在语音的自然度和情感表达上表现出色。微软的 Azure AI Speech 在多语言支持和实时语音合成方面具有优势。Azure AI Speech 的语音合成技术基于生成式 AI 模型,能够生成高质量、自然流畅的语音输出。通过结合 Azure OpenAI API,用户可以利用这些模型进行多种应用场景的开发,如语音助手、有声读物、教育工具等。微软还提供了详细的快速入门指南,帮助开发者快速上手并集成这些功能。
在用户案例方面,许多企业已经开始使用 Azure AI Speech 来提升其业务效率和用户体验。例如,好未来教育集团在其 “九章随时问” 小程序中广泛采用了微软 Azure 提供的高精准 ASR 和超拟人 TTS 技术。这些技术使得 AI 老师能够与学生进行自然的语音交流。另一个案例是 Truecaller 与微软 Azure AI Speech 的合作。Truecaller 助手能够使用用户的声音自动接听电话、筛选来电、留言,并代用户回复或录音。