Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

Google AI 推出零样本语音转换,助力言语障碍者恢复声音

2024-08-22

2024 年 8 月 22 日,Google AI 推出了一款零样本跨语言语音转换模块,旨在帮助恢复言语障碍者的声音。这一技术可以集成到文本转语音(TTS)系统中,用户无需大量训练数据即可实现不同语言间的语音转换。详细信息和演示视频可在相关链接中查看( 视频链接 和 详细信息 )。

这一技术的发布引起了广泛关注,特别是在帮助有言语障碍的人士恢复他们的声音方面。通过这一技术,用户可以在无需大量训练数据的情况下,实现不同语言间的语音转换,从而为有言语障碍的人士提供更自然的语音表达方式。

Google AI 的零样本跨语言语音转换模块具有一些技术优势:

  • 它能够在无需大量训练数据的情况下实现语音转换,这对于资源有限的应用场景非常重要。
  • 该模块支持多语言转换,能够在不同语言之间进行切换,扩展了其应用范围。
    在技术架构方面,Google AI 的零样本跨语言语音转换模块的核心在于其 TTS 模型架构和语音转移模块。TTS 推理系统包括将语言信息转化为隐藏表示的文本编码器,这些表示被输入到一个时长预测器和上采样器中,生成与预计输出时长成比例的更长序列。该扩展序列被传递到特征解码器,从而生成与合成声信号特征相对应的隐藏特征。最后,WaveFit 声码器将这些特征转换为输出的时域波形。

新 VT 模块是 TTS 系统的扩展,接收参考语音示例输入,使 TTS 模型能够将参考语音中的声音转移至生成的合成语音中。VT 模块由一个语音编码器、瓶颈模块和残差适配器组成。

跨语言实验也展示了该技术的能力。研究团队测试了 TTS 零样本模型在六种不同语言中的跨语言能力,使用来自 VCTK 语料库的典型参考语音。语音转录和翻译是通过 Gemini API 自动生成的。主观评估结果显示,平均有 73.1% 的评判人认为,给定的英语参考和自动翻译合成语音是由相同说话者所说。每种语言的平均意见分数(MOS)也显示了输出音频的自然度和质量。

在案例研究中,Google AI 与研究科学家 Dimitri Kanevsky 合作,展示了系统在不典型语音作为唯一参考时的性能。Dimitri 从小就听觉严重受损,并使用俄语音标来学习说英语。仅用 12 秒他的不典型语音作为参考,系统合成了语音输出。10 个与 Dimitri 有工作关系的受试者对输出语音与 Dimitri 语音的相似度评分为 8.1/10。

这一技术的应用场景非常广泛,特别是在帮助有言语障碍的人士恢复他们的声音方面。例如,肌萎缩性脊髓侧索硬化症(ALS)、帕金森病和多发性硬化症等疾病会导致患者的声音特征逐渐退化。通过这一技术,这些患者可以恢复他们的原声,甚至预测他们已经失去的语音模式。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5