阿里巴巴发布 FunAudioLLM，语音识别支持 50 种语言！

2024 年 8 月 29 日，阿里巴巴通义实验室发布了开源语音大模型项目 FunAudioLLM。该项目包括两个核心模型：SenseVoice 和 CosyVoice。SenseVoice 专注于多语言语音识别、情感辨识和音频事件检测，支持超过 50 种语言。CosyVoice 则专注于自然语音生成，支持中英日粤韩 5 种语言的生成，能够进行细粒度的情感和韵律控制。

FunAudioLLM 可应用于多语言语音翻译、情绪语音对话、互动播客和有声读物等场景。该项目采用了多种技术，包括 Transformer 模型和生成式 AI 技术，使得音频处理和生成变得更加智能和高效。SenseVoice 模型在多语言语音识别和情感辨识方面表现良好，特别是在中文和粤语上的识别效果有所提升。CosyVoice 模型则在自然语音生成方面表现良好，并能够进行细粒度的情感和韵律控制。

FunAudioLLM 的应用场景包括多语言语音翻译、情绪语音对话、互动播客和有声读物等。例如，在多语言语音翻译中，SenseVoice 负责语音识别和情感识别，而 CosyVoice 生成翻译后的语音内容，帮助用户实现跨语言交流。在情绪语音对话中，通过识别和响应用户的情感状态，提供更自然的互动。

在医疗领域，FunAudioLLM 的语音识别技术被应用于提高诊断效率。医生可以通过语音输入病历，系统自动生成文本记录，并进行情感分析，帮助医生更好地理解患者的情绪状态。在教育领域，FunAudioLLM 被用于语言学习和听力训练，学生可以通过与语音助手互动，提高语言学习的兴趣和效率。

在客户服务领域，FunAudioLLM 的情感识别功能提高了客户满意度。客服系统可以通过识别客户语音中的情感变化，及时作出响应，提供更加个性化的服务。

SenseVoice 模型采用了超过 40 万小时的数据进行训练，支持超过 50 种语言，在中文和粤语上的识别准确度有所提升。CosyVoice 模型则采用了超过 15 万小时的数据进行训练，支持中英日粤韩五种语言的合成，合成效果优于传统语音合成模型。CosyVoice 还支持通过富文本或自然语言形式，对生成语音的情感和韵律进行细粒度控制。

FunAudioLLM 项目的发布标志着语音交互技术的一个重要进展。通过对文本内容的深度理解和自然语音生成技术的应用，FunAudioLLM 为未来的语音合成和人机交互技术提供了新的可能性。