Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
谷歌 DeepMind 推出 PEER 架构,解决 Transformer 计算成本难题

谷歌 DeepMind 推出 PEER 架构,解决 Transformer 计算成本难题

2024-07-30

Transformer 架构在自然语言处理领域的进展显著,但随着模型规模的不断扩大,计算成本和内存需求也随之增加。为了应对这些挑战,谷歌 DeepMind 团队推出了一种名为参数高效专家检索(Parameter Efficient Expert Retrieval, PEER)的新架构。PEER 架构的设计结合了产品密钥路由和单神经元专家的优势,使得在不显著增加计算开销的情况下,层容量得以扩展。PEER 通过一种方法来分配计算资源,避免了传统方法中的高昂成本。

实际测试结果显示,PEER 在效率上优于密集前馈层(FFW)、粗粒度 MoE 以及产品密钥内存(PKM)层。这意味着,使用 PEER 架构可以让模型变得更强大,而不需要为此付出更多的计算资源。

在标准 Transformer 架构中,前馈层(FFW)的计算成本和激活内存随着隐藏层宽度的增加而线性增长。这个问题限制了模型的扩展能力,一旦数据规模增大,计算资源和内存需求就会变得难以承受。为了解决这个问题,稀疏专家混合(MoE)架构应运而生。MoE 架构通过引入多个专家网络,仅激活其中的一部分,从而在不显著增加计算成本的情况下扩展模型参数。不过,现有的 MoE 模型在专家数量和计算效率上仍存在局限,未能充分利用大规模专家的潜力。

为了突破现有 MoE 架构的限制,谷歌 DeepMind 团队提出了参数高效专家检索(PEER)架构。PEER 通过产品密钥技术实现高效的专家检索,从而在不增加计算成本的情况下,显著扩展专家数量。具体操作上,PEER 架构利用产品密钥技术,将输入映射到查询向量,并通过查询向量与产品密钥的匹配,选择最合适的专家进行计算。这种方法不仅提高了模型的计算效率,还使模型能够在更大规模的数据集上进行训练和推理。

传统的 MoE 架构通常依赖于少量的大专家,而 PEER 架构则探索了大量微小专家的设置。通过引入学习索引结构,PEER 能够高效地在百万级别的专家中进行路由选择。这种极端 MoE 设置不仅提高了模型的灵活性,还显著提升了模型的性能。

PEER 架构的核心在于将产品密钥路由与单神经元专家相结合。具体实现上,PEER 层由三个主要部分组成:专家池、产品密钥和查询网络。首先,查询网络将输入向量映射为查询向量;然后,查询向量与产品密钥进行匹配,计算路由得分;最后,根据路由得分选择最合适的专家进行计算,并将专家的输出进行加权组合。通过这种设计,PEER 层能够在不显著增加计算开销的情况下,扩展层容量。

为了验证 PEER 架构的有效性,研究团队进行了 isoFLOP 分析,比较了 PEER 与密集 FFW、粗粒度 MoE 以及产品密钥记忆(PKM)层的性能。实验结果显示,PEER 在计算效率和模型性能上均优于其他架构,特别是在处理大规模语言建模任务时,表现尤为突出。这些结果证明了 PEER 架构在大规模专家设置中的潜力,为未来 Transformer 模型的扩展提供了新的思路。

AI 日报

查看全部日报

  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%
  • 深度伪造鼻祖获 1750 万融资!Visa 等巨头已成客户

©2025 毫河风报 沪ICP备18012441号-5