2024 年 8 月 29 日,阿里巴巴通义实验室发布了开源语音大模型项目 FunAudioLLM。该项目包括两个核心模型:SenseVoice 和 CosyVoice。SenseVoice 专注于多语言语音识别、情感辨识和音频事件检测,支持超过 50 种语言。CosyVoice 则专注于自然语音生成,支持中英日粤韩 5 种语言的生成,能够进行细粒度的情感和韵律控制。
FunAudioLLM 可应用于多语言语音翻译、情绪语音对话、互动播客和有声读物等场景。该项目采用了多种技术,包括 Transformer 模型和生成式 AI 技术,使得音频处理和生成变得更加智能和高效。SenseVoice 模型在多语言语音识别和情感辨识方面表现良好,特别是在中文和粤语上的识别效果有所提升。CosyVoice 模型则在自然语音生成方面表现良好,并能够进行细粒度的情感和韵律控制。
FunAudioLLM 的应用场景包括多语言语音翻译、情绪语音对话、互动播客和有声读物等。例如,在多语言语音翻译中,SenseVoice 负责语音识别和情感识别,而 CosyVoice 生成翻译后的语音内容,帮助用户实现跨语言交流。在情绪语音对话中,通过识别和响应用户的情感状态,提供更自然的互动。
在医疗领域,FunAudioLLM 的语音识别技术被应用于提高诊断效率。医生可以通过语音输入病历,系统自动生成文本记录,并进行情感分析,帮助医生更好地理解患者的情绪状态。在教育领域,FunAudioLLM 被用于语言学习和听力训练,学生可以通过与语音助手互动,提高语言学习的兴趣和效率。
在客户服务领域,FunAudioLLM 的情感识别功能提高了客户满意度。客服系统可以通过识别客户语音中的情感变化,及时作出响应,提供更加个性化的服务。
SenseVoice 模型采用了超过 40 万小时的数据进行训练,支持超过 50 种语言,在中文和粤语上的识别准确度有所提升。CosyVoice 模型则采用了超过 15 万小时的数据进行训练,支持中英日粤韩五种语言的合成,合成效果优于传统语音合成模型。CosyVoice 还支持通过富文本或自然语言形式,对生成语音的情感和韵律进行细粒度控制。
FunAudioLLM 项目的发布标志着语音交互技术的一个重要进展。通过对文本内容的深度理解和自然语音生成技术的应用,FunAudioLLM 为未来的语音合成和人机交互技术提供了新的可能性。

