Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

阿里巴巴发布 FunAudioLLM,语音识别支持 50 种语言!

2024-08-29

2024 年 8 月 29 日,阿里巴巴通义实验室发布了开源语音大模型项目 FunAudioLLM。该项目包括两个核心模型:SenseVoice 和 CosyVoice。SenseVoice 专注于多语言语音识别、情感辨识和音频事件检测,支持超过 50 种语言。CosyVoice 则专注于自然语音生成,支持中英日粤韩 5 种语言的生成,能够进行细粒度的情感和韵律控制。

FunAudioLLM 可应用于多语言语音翻译、情绪语音对话、互动播客和有声读物等场景。该项目采用了多种技术,包括 Transformer 模型和生成式 AI 技术,使得音频处理和生成变得更加智能和高效。SenseVoice 模型在多语言语音识别和情感辨识方面表现良好,特别是在中文和粤语上的识别效果有所提升。CosyVoice 模型则在自然语音生成方面表现良好,并能够进行细粒度的情感和韵律控制。

FunAudioLLM 的应用场景包括多语言语音翻译、情绪语音对话、互动播客和有声读物等。例如,在多语言语音翻译中,SenseVoice 负责语音识别和情感识别,而 CosyVoice 生成翻译后的语音内容,帮助用户实现跨语言交流。在情绪语音对话中,通过识别和响应用户的情感状态,提供更自然的互动。

在医疗领域,FunAudioLLM 的语音识别技术被应用于提高诊断效率。医生可以通过语音输入病历,系统自动生成文本记录,并进行情感分析,帮助医生更好地理解患者的情绪状态。在教育领域,FunAudioLLM 被用于语言学习和听力训练,学生可以通过与语音助手互动,提高语言学习的兴趣和效率。

在客户服务领域,FunAudioLLM 的情感识别功能提高了客户满意度。客服系统可以通过识别客户语音中的情感变化,及时作出响应,提供更加个性化的服务。

SenseVoice 模型采用了超过 40 万小时的数据进行训练,支持超过 50 种语言,在中文和粤语上的识别准确度有所提升。CosyVoice 模型则采用了超过 15 万小时的数据进行训练,支持中英日粤韩五种语言的合成,合成效果优于传统语音合成模型。CosyVoice 还支持通过富文本或自然语言形式,对生成语音的情感和韵律进行细粒度控制。

FunAudioLLM 项目的发布标志着语音交互技术的一个重要进展。通过对文本内容的深度理解和自然语音生成技术的应用,FunAudioLLM 为未来的语音合成和人机交互技术提供了新的可能性。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5