近日,小红书的技术团队 FireRed 推出了基于大语言模型的 FireRedTTS 语音合成系统。该系统在短视频配音和聊天式语音对话等应用中表现良好。FireRedTTS 只需给定文本和几秒钟参考音频,无需训练即可模仿任意音色和说话风格,创造音频内容。用户可以定制各种风格的语音内容,如搞怪风、女友风和 emo 小片段等。小红书是一家社交电商平台,FireRedTTS 的推出进一步丰富了其平台上的内容创作工具。
FireRedTTS 语音合成系统的核心技术基于大语言模型,能够在短时间内生成语音内容。该系统由数据处理、基座系统和下游应用三部分组成。在基座系统部分,FireRedTTS 利用语言模型的序列生成能力,将文本序列转换成自然的语音序列。用户只需提供几秒钟的参考音频,系统即可模仿任意音色和说话风格,无需额外训练。
FireRedTTS 在 Blizzard Challenge 2023 中的表现也很不错。该系统旨在开发一种模仿特定说话者的法语文本到语音转换系统,并在发言者相似性测量任务中获得了第一名。
与其他语音合成系统相比,FireRedTTS 具有一些技术优势。首先,FireRedTTS 无需训练即可模仿任意音色和说话风格,这使得用户可以快速生成语音内容。其次,FireRedTTS 支持多种风格的语音定制,如搞怪风、女友风和 emo 小片段等,满足了用户多样化的需求。
此外,FireRedTTS 的开源项目也受到了开发者社区的关注。该项目的 GitHub 页面提供了详细的代码库和相关资源,方便开发者进行二次开发和应用。
FireRedTTS GitHub 页面