Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

苹果研究人员提出了一种新颖的 AI 算法,用于优化字节级表示以实现自动语音识别(ASR),并将其与 UTF-8 进行比较。

2024-09-12

编辑注:本篇文章是对原作者 Mohammad Asjad 在 MARKTECHPOST 上发表的英文文章的翻译,我们尽可能保持了原文的意思和语境,以下为翻译后原文。

端到端(E2E)神经网络已经成为多语言自动语音识别(ASR)的灵活且准确的模型。然而,随着支持语言数量的增加,特别是那些具有大型字符集的语言如中文、日语和韩语(CJK),输出层的大小显著增长。这种扩展对计算资源、内存使用和模型大小产生了负面影响。在多语言系统中,这一挑战更加明显,因为输出通常由各种语言的字符或子词的并集组成。因此,研究人员正在努力在保持模型效率和性能的同时,适应 E2E ASR 系统中多样化的语言及其相关字符集。

之前的尝试集中在字节级表示,特别是使用 UTF-8 码字作为基本标记。这种方法允许固定的输出词汇表大小为 256,提供了跨语言的紧凑性和一致性。然而,字节级表示通常会导致更长的序列,尤其是对于 CJK 语言,可能会增加错误率,因为单个字符需要多个预测。研究人员提出使用字节对编码(BPE)在 UTF-8 码字序列上生成字节级子词来缓解这一问题。虽然这减少了解码步骤的数量,但并不能保证有效的 UTF-8 编码输出。后来引入了一种动态规划算法,以从可能无效的字节序列中恢复有效字符,尽管这种方法优化的是字符的有效性而非 ASR 的质量。

Apple 研究人员审查了一种最先进的方法,该方法使用矢量量化自编码器进行稳健的表示学习。此方法旨在优化专门用于端到端(E2E)自动语音识别(ASR)任务的字节级表示,解决了以往方法的局限性。该框架设计为数据驱动,结合文本和音频信息以提高准确性。它提供了灵活性,可以包括额外的辅助信息,如词典或音素,使其适应各种 ASR 场景。重要的是,该方法包含一个错误校正机制来处理无效序列,优化恢复过程以准确性为目标,而非其他指标。这种方法符合研究人员对理想字节级表示的标准:任务特定优化、全面信息利用和有效错误校正。


所提出的方法将表示问题表述为具有潜在变量的优化任务,使用矢量量化自编码器(VQ-AE)架构。该自编码器由四个关键组件组成:标签编码器、声学编码器、标签解码器和矢量量化器。系统使用矢量量化作为其瓶颈,量化嵌入的索引用作潜在变量。

自编码器通过包含四个项的损失函数进行优化:标签和声学编码器的交叉熵损失、声学编码器的 CTC 损失和量化损失。该方法采用具有两个或三个码本的残差 VQ-VAE(RVQ-VAE),每个码本包含 256 个嵌入,使每个标签标记可以用 2-3 个字节表示。


为了处理字节序列中的潜在错误,系统通过标记解码器引入了一种错误校正机制。这个解码器能够估计最可能的标签序列,即使在遇到无效字节序列时也能优化准确性。所提出的基于矢量量化(VQ)的表示相比 UTF-8 具有优势,包括固定长度编码、任务特定优化和改进的错误恢复。

研究人员在双语英语和普通话语音识别任务中评估了他们提出的基于矢量量化(VQ)的表示方法,并将其与基于字符和 UTF-8 子词输出进行比较。使用一个大约 120M 参数的 CTC-AED(连接时序分类 – 注意力解码)模型,他们在包含 1 万小时英语和 1.4 万小时普通话训练数据的数据集上测试了各种输出表示。

结果显示,基于矢量量化(VQ)的表示在不同子词大小上始终优于 UTF-8 子词输出。使用 8000 个子词时,基于矢量量化(VQ)的方法在英语中实现了 5.8% 的相对词错误率(WER)下降,在普通话中实现了 3.7% 的相对字符错误率(CER)下降,相比于 UTF-8。与基于字符的输出相比,VQ 和 UTF-8 表示在英语上表现更好,同时在普通话上保持了类似的准确性。值得注意的是,使用 8000 个子词的基于矢量量化(VQ)的方法相比于基于字符的输出,在英语中表现出 14.8% 的相对错误率下降,在普通话中下降了 2.3%,突显了其在多语言自动语音识别(ASR)系统中的有效性和灵活性。


本研究提出了一种用于优化自动语音识别(ASR)中字节级表示的强大算法,作为 UTF-8 表示的替代方法。该方法可以通过音频和文本数据进行优化,并设计了一种错误校正机制以提高准确性。在英语和普通话听写数据集上的测试表明,与基于 UTF-8 的方法相比,标记错误率(TER)相对降低了 5%。尽管当前研究集中于双语 ASR,研究人员也承认在开发适用于所有语言的通用表示时面临挑战,例如索引崩溃的问题。


本文翻译自 MARKTECHPOST,点击此处可查看原文

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5