阿里巴巴发布 FunAudioLLM，SenseVoice 和 CosyVoice 引领语音技术

2024 年 7 月 30 日，OpenAI 宣布 ChatGPT 的高级语音模式正式上线，部分 ChatGPT Plus 用户率先体验到了这一新功能。该模式允许用户与 ChatGPT 进行自然的实时语音对话，支持多种情绪和非语言线索的理解和回应。OpenAI 表示，这一功能的推出是为了让用户能够更自然地与 AI 进行互动。高级语音模式支持用户在对话中打断 AI，并且 AI 能够根据上下文进行幽默和讽刺的回应。此外，OpenAI 还特别强调，ChatGPT 不会冒用他人的声音，以避免 Deepfake 争议。

2024 年 7 月，阿里巴巴通义实验室发布了 FunAudioLLM 项目，包含两个核心模型：SenseVoice 和 CosyVoice。SenseVoice 专注于多语言语音识别和情感辨识，支持超过 50 种语言，特别在中文和粤语上表现优异。CosyVoice 则专注于自然语音生成，能够控制音色和情感，支持中英日粤韩五种语言。

SenseVoice 模型在多语言识别和情感辨识方面表现出色。它不仅能够高精度地识别语音，还能辨别多种人机交互事件，如音乐、掌声、笑声、哭声等。该模型提供轻量级和大型两个版本，适应不同应用场景。CosyVoice 模型则能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节，支持跨语种语音生成和细粒度的情感控制。

FunAudioLLM 的应用场景非常广泛。企业用户可以在客户服务、智能助手、多语言翻译等业务场景中应用 FunAudioLLM，提高效率和用户体验。内容创作者可以使用 FunAudioLLM 生成有声读物或播客，丰富内容形式。教育领域也可以利用 FunAudioLLM 进行语言学习和听力训练。此外，FunAudioLLM 还可以帮助视障人士通过语音交互获取信息。

CosyVoice 在商业应用中的表现尤为突出。其多语言支持和情感控制功能使其在多个领域得到了广泛应用。CosyVoice 能够在 3 至 10 秒的原始音频基础上生成模拟音色，包括韵律和情感等细节，甚至能够实现跨语言的语音生成。这一特性使其在客户服务、智能助手和多语言翻译等场景中表现出色。

CosyVoice 的技术细节也备受关注。该模型基于语音量化编码技术，能够将连续的语音信号转换为离散的编码表示，捕捉语音中的关键特征如音高、音量、音色等。CosyVoice 还采用了基于 ODE 的扩散模型，用于从生成的语音标记中重建 Mel 频谱，确保高质量输出。最终，基于 HiFTNet 的声码器将 Mel 频谱合成最终的语音波形。

CosyVoice 的细粒度控制技术使其能够根据用户需求调整生成语音的情感和韵律。这一特性在有声读物和播客制作中得到了广泛应用。内容创作者可以使用 CosyVoice 生成具有丰富情感表现力的有声读物。

此外，CosyVoice 还支持零样本语音生成和跨语言声音合成。用户只需提供少量的原始音频，CosyVoice 便能够生成高质量的模拟音色。这一特性使得 CosyVoice 在多语言翻译和跨文化交流中具有重要应用价值。