Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
阿里巴巴发布 Qwen2-Audio,语音处理能力再升级!

阿里巴巴发布 Qwen2-Audio,语音处理能力再升级!

2024-08-10

2024 年 8 月 10 日,阿里巴巴发布了其最新的语音模型 Qwen2-Audio。这款模型是 Qwen-Audio 的升级版,具备更强大的语音处理能力和多语言支持。Qwen2-Audio 能够接受音频和文本输入,并生成文本输出,支持多达 8 种语言和方言,包括中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。用户可以通过语音直接与模型进行交互,享受语音聊天和音频分析两种模式带来的便捷体验。

Qwen2-Audio 采用了最新的 Qwen 语言模型和音频编码器,通过多任务预训练实现了音频与语言的对齐,并通过监督式微调(SFT)和直接偏好优化(DPO)来掌握下游任务的能力并捕捉人类的偏好。

在架构优化方面,Qwen2-Audio 摒弃了复杂的分层标签系统,转而采用自然语言提示进行预训练。这一举措简化了训练流程,提升了模型的泛化能力和指令响应精度。Qwen2-Audio 还引入了监督式微调(SFT)和直接偏好优化(DPO)等优化方法,进一步提升了模型与人类意图的契合度及输出质量。

性能方面,Qwen2-Audio 在多个基准数据集上的表现均领先于同类竞品。经过在 AIR – Bench、S2TT、ASR、Fleurs zh 等主流基准上的综合评测,在多个数据集上,其语音识别和翻译性能均领先于同类竞品,尤其是在中文子集上的表现超越了 OpenAI 的 Whisper-large-v3 模型。

多语言支持是 Qwen2-Audio 的一大亮点。该模型支持包括中文、粤语、法语、英语、日语等在内的多种主流语言和方言,这一特性拓宽了其应用范围,为开发翻译、情感分析等跨语言应用提供了支持。

Qwen2-Audio 的功能也进行了拓展,新增了语音聊天和音频分析两种模式。在语音聊天模式下,用户可以与模型进行语音交互。而在音频分析模式下,Qwen2-Audio 能够对各类音频进行剖析,提供分析报告。

在实际应用中,Qwen2-Audio 已经展现了其潜力。在教育领域,Qwen2-Audio 可以用于语言学习和听力训练。在医疗领域,Qwen2-Audio 可以用于语音记录和病历转录。在客服领域,Qwen2-Audio 可以用于智能客服系统。

此外,Qwen2-Audio 还可以应用于智能家居、车载语音助手、语音翻译等多个场景。通过与其他智能设备的结合,Qwen2-Audio 可以实现丰富的功能,为用户提供语音交互体验。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5