谷歌 DeepMind 推出 PEER 架构，解决 Transformer 计算成本难题

Transformer 架构在自然语言处理领域的进展显著，但随着模型规模的不断扩大，计算成本和内存需求也随之增加。为了应对这些挑战，谷歌 DeepMind 团队推出了一种名为参数高效专家检索（Parameter Efficient Expert Retrieval, PEER）的新架构。PEER 架构的设计结合了产品密钥路由和单神经元专家的优势，使得在不显著增加计算开销的情况下，层容量得以扩展。PEER 通过一种方法来分配计算资源，避免了传统方法中的高昂成本。

实际测试结果显示，PEER 在效率上优于密集前馈层（FFW）、粗粒度 MoE 以及产品密钥内存（PKM）层。这意味着，使用 PEER 架构可以让模型变得更强大，而不需要为此付出更多的计算资源。

在标准 Transformer 架构中，前馈层（FFW）的计算成本和激活内存随着隐藏层宽度的增加而线性增长。这个问题限制了模型的扩展能力，一旦数据规模增大，计算资源和内存需求就会变得难以承受。为了解决这个问题，稀疏专家混合（MoE）架构应运而生。MoE 架构通过引入多个专家网络，仅激活其中的一部分，从而在不显著增加计算成本的情况下扩展模型参数。不过，现有的 MoE 模型在专家数量和计算效率上仍存在局限，未能充分利用大规模专家的潜力。

为了突破现有 MoE 架构的限制，谷歌 DeepMind 团队提出了参数高效专家检索（PEER）架构。PEER 通过产品密钥技术实现高效的专家检索，从而在不增加计算成本的情况下，显著扩展专家数量。具体操作上，PEER 架构利用产品密钥技术，将输入映射到查询向量，并通过查询向量与产品密钥的匹配，选择最合适的专家进行计算。这种方法不仅提高了模型的计算效率，还使模型能够在更大规模的数据集上进行训练和推理。

传统的 MoE 架构通常依赖于少量的大专家，而 PEER 架构则探索了大量微小专家的设置。通过引入学习索引结构，PEER 能够高效地在百万级别的专家中进行路由选择。这种极端 MoE 设置不仅提高了模型的灵活性，还显著提升了模型的性能。

PEER 架构的核心在于将产品密钥路由与单神经元专家相结合。具体实现上，PEER 层由三个主要部分组成：专家池、产品密钥和查询网络。首先，查询网络将输入向量映射为查询向量；然后，查询向量与产品密钥进行匹配，计算路由得分；最后，根据路由得分选择最合适的专家进行计算，并将专家的输出进行加权组合。通过这种设计，PEER 层能够在不显著增加计算开销的情况下，扩展层容量。

为了验证 PEER 架构的有效性，研究团队进行了 isoFLOP 分析，比较了 PEER 与密集 FFW、粗粒度 MoE 以及产品密钥记忆（PKM）层的性能。实验结果显示，PEER 在计算效率和模型性能上均优于其他架构，特别是在处理大规模语言建模任务时，表现尤为突出。这些结果证明了 PEER 架构在大规模专家设置中的潜力，为未来 Transformer 模型的扩展提供了新的思路。