阿里巴巴发布 Qwen2-Audio，语音处理能力再升级！

2024 年 8 月 10 日，阿里巴巴发布了其最新的语音模型 Qwen2-Audio。这款模型是 Qwen-Audio 的升级版，具备更强大的语音处理能力和多语言支持。Qwen2-Audio 能够接受音频和文本输入，并生成文本输出，支持多达 8 种语言和方言，包括中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。用户可以通过语音直接与模型进行交互，享受语音聊天和音频分析两种模式带来的便捷体验。

Qwen2-Audio 采用了最新的 Qwen 语言模型和音频编码器，通过多任务预训练实现了音频与语言的对齐，并通过监督式微调（SFT）和直接偏好优化（DPO）来掌握下游任务的能力并捕捉人类的偏好。

在架构优化方面，Qwen2-Audio 摒弃了复杂的分层标签系统，转而采用自然语言提示进行预训练。这一举措简化了训练流程，提升了模型的泛化能力和指令响应精度。Qwen2-Audio 还引入了监督式微调（SFT）和直接偏好优化（DPO）等优化方法，进一步提升了模型与人类意图的契合度及输出质量。

性能方面，Qwen2-Audio 在多个基准数据集上的表现均领先于同类竞品。经过在 AIR – Bench、S2TT、ASR、Fleurs zh 等主流基准上的综合评测，在多个数据集上，其语音识别和翻译性能均领先于同类竞品，尤其是在中文子集上的表现超越了 OpenAI 的 Whisper-large-v3 模型。

多语言支持是 Qwen2-Audio 的一大亮点。该模型支持包括中文、粤语、法语、英语、日语等在内的多种主流语言和方言，这一特性拓宽了其应用范围，为开发翻译、情感分析等跨语言应用提供了支持。

Qwen2-Audio 的功能也进行了拓展，新增了语音聊天和音频分析两种模式。在语音聊天模式下，用户可以与模型进行语音交互。而在音频分析模式下，Qwen2-Audio 能够对各类音频进行剖析，提供分析报告。

在实际应用中，Qwen2-Audio 已经展现了其潜力。在教育领域，Qwen2-Audio 可以用于语言学习和听力训练。在医疗领域，Qwen2-Audio 可以用于语音记录和病历转录。在客服领域，Qwen2-Audio 可以用于智能客服系统。

此外，Qwen2-Audio 还可以应用于智能家居、车载语音助手、语音翻译等多个场景。通过与其他智能设备的结合，Qwen2-Audio 可以实现丰富的功能，为用户提供语音交互体验。