小红书推出 FireRedTTS，短视频配音进入新纪元

近日，小红书的技术团队 FireRed 推出了基于大语言模型的 FireRedTTS 语音合成系统。该系统在短视频配音和聊天式语音对话等应用中表现良好。FireRedTTS 只需给定文本和几秒钟参考音频，无需训练即可模仿任意音色和说话风格，创造音频内容。用户可以定制各种风格的语音内容，如搞怪风、女友风和 emo 小片段等。小红书是一家社交电商平台，FireRedTTS 的推出进一步丰富了其平台上的内容创作工具。

FireRedTTS 语音合成系统的核心技术基于大语言模型，能够在短时间内生成语音内容。该系统由数据处理、基座系统和下游应用三部分组成。在基座系统部分，FireRedTTS 利用语言模型的序列生成能力，将文本序列转换成自然的语音序列。用户只需提供几秒钟的参考音频，系统即可模仿任意音色和说话风格，无需额外训练。

FireRedTTS 在 Blizzard Challenge 2023 中的表现也很不错。该系统旨在开发一种模仿特定说话者的法语文本到语音转换系统，并在发言者相似性测量任务中获得了第一名。

与其他语音合成系统相比，FireRedTTS 具有一些技术优势。首先，FireRedTTS 无需训练即可模仿任意音色和说话风格，这使得用户可以快速生成语音内容。其次，FireRedTTS 支持多种风格的语音定制，如搞怪风、女友风和 emo 小片段等，满足了用户多样化的需求。

此外，FireRedTTS 的开源项目也受到了开发者社区的关注。该项目的 GitHub 页面提供了详细的代码库和相关资源，方便开发者进行二次开发和应用。

FireRedTTS GitHub 页面