2024 年 8 月 10 日,阿里巴巴发布了其最新的语音模型 Qwen2-Audio。这款模型是 Qwen-Audio 的升级版,具备更强大的语音处理能力和多语言支持。Qwen2-Audio 能够接受音频和文本输入,并生成文本输出,支持多达 8 种语言和方言,包括中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。用户可以通过语音直接与模型进行交互,享受语音聊天和音频分析两种模式带来的便捷体验。
Qwen2-Audio 采用了最新的 Qwen 语言模型和音频编码器,通过多任务预训练实现了音频与语言的对齐,并通过监督式微调(SFT)和直接偏好优化(DPO)来掌握下游任务的能力并捕捉人类的偏好。
在架构优化方面,Qwen2-Audio 摒弃了复杂的分层标签系统,转而采用自然语言提示进行预训练。这一举措简化了训练流程,提升了模型的泛化能力和指令响应精度。Qwen2-Audio 还引入了监督式微调(SFT)和直接偏好优化(DPO)等优化方法,进一步提升了模型与人类意图的契合度及输出质量。
性能方面,Qwen2-Audio 在多个基准数据集上的表现均领先于同类竞品。经过在 AIR – Bench、S2TT、ASR、Fleurs zh 等主流基准上的综合评测,在多个数据集上,其语音识别和翻译性能均领先于同类竞品,尤其是在中文子集上的表现超越了 OpenAI 的 Whisper-large-v3 模型。
多语言支持是 Qwen2-Audio 的一大亮点。该模型支持包括中文、粤语、法语、英语、日语等在内的多种主流语言和方言,这一特性拓宽了其应用范围,为开发翻译、情感分析等跨语言应用提供了支持。
Qwen2-Audio 的功能也进行了拓展,新增了语音聊天和音频分析两种模式。在语音聊天模式下,用户可以与模型进行语音交互。而在音频分析模式下,Qwen2-Audio 能够对各类音频进行剖析,提供分析报告。
在实际应用中,Qwen2-Audio 已经展现了其潜力。在教育领域,Qwen2-Audio 可以用于语言学习和听力训练。在医疗领域,Qwen2-Audio 可以用于语音记录和病历转录。在客服领域,Qwen2-Audio 可以用于智能客服系统。
此外,Qwen2-Audio 还可以应用于智能家居、车载语音助手、语音翻译等多个场景。通过与其他智能设备的结合,Qwen2-Audio 可以实现丰富的功能,为用户提供语音交互体验。

