Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Zyphra 实验室发布树状注意力,LLM 处理超长文本效率提升 8 倍

Zyphra 实验室发布树状注意力,LLM 处理超长文本效率提升 8 倍

2024-08-12

2024 年 8 月 12 日,Zyphra 实验室宣布开发了一种新的注意力机制 —— 树状注意力(Tree Attention),提升了大型语言模型(LLM)处理超长文本的效率。大型语言模型(如 ChatGPT)的核心是 “注意力” 机制,它使模型能够关注输入文本中的重要信息。然而,随着输入文本变长,传统注意力机制的计算复杂度会呈二次方增长,导致处理速度下降。

Zyphra 实验室的研究人员通过数学推导,发现注意力计算可以转化为一个标量能量函数(scalar energy function)的梯度。基于这一发现,他们设计出能在多个 GPU 之间并行计算注意力的新算法。与现有的环状注意力(Ring Attention)等方法相比,新算法在多个 GPU 上并行计算注意力,实验中速度提升了 8 倍,同时减少了 2 倍的内存占用,通信开销也降低。这意味着 AI 模型可以更高效地处理超长文本,提升了实际应用中的性能。

研究团队还公开了相关的代码,鼓励更多的研究人员和开发者参与到这一领域的研究中来。这一举措有助于推动技术的进一步发展,为整个 AI 社区提供了资源。许多研究人员和开发者在社交媒体上表示,他们已经开始研究和测试这一新算法。

除了树状注意力机制,Zyphra 实验室还在其他领域进行了许多研究。例如,他们正在研究一种新的混合模型架构 Zamba,该架构结合了 Mamba 块和全局共享注意力层,旨在提高长距离依赖关系的学习能力。这些研究展示了 Zyphra 实验室在 AI 领域的研究方向和技术探索。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5