Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

斯坦福等名校联合 Meta 推出 TTT 模型,性能超越 Transformer 和 Mamba

2024-08-27

2024 年 8 月 27 日,斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和 Meta 的研究人员联合提出了一种名为 TTT(测试时间训练层)的新架构,旨在取代传统的 Transformer 和 Mamba 模型。TTT 模型通过对输入 token 进行梯度下降来压缩上下文,直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构。研究表明,TTT-Linear 和 TTT-MLP 在性能上超越了现有的最强模型。

TTT 模型的核心创新在于其测试时间训练层(Test-Time-Training layers),通过对输入 token 进行梯度下降来压缩上下文,直接替代了传统的注意力机制。这种方法不仅降低了计算复杂度,还提高了模型的表现力和记忆能力。TTT-Linear 和 TTT-MLP 是该架构的两个主要变体,分别在不同的任务和数据集上展示了性能。

研究人员在论文中详细描述了 TTT 模型的架构和算法,并提供了大量实验数据来验证其有效性。实验结果显示,TTT-Linear 和 TTT-MLP 在 125M 到 1.3B 参数规模上,与 Transformer 和现代 RNN Mamba 进行比较,结果显示 TTT-Linear 和 TTT-MLP 在性能上匹敌或超越了基准模型。

具体来说,TTT-Linear 在处理短文本任务时表现尤为出色,而 TTT-MLP 则在长文本和复杂任务中展示了更大的潜力。研究人员指出,TTT 模型在 8k 上下文中已经比 Transformer 更快,并且在墙钟时间上与 Mamba 匹敌。TTT-MLP 在长上下文中显示出更大的潜力,能够在更大的隐藏状态中压缩更多信息。

GitHub 上也迅速出现了多个 TTT 模型的实现版本,方便开发者进行实验和应用。例如,test-time-training 团队在 GitHub 上发布了 TTT-Linear 和 TTT-MLP 的 PyTorch 实现,基于 Huggingface Transformers 库,可以用于加载模型和生成文本。该实现版本支持在 GPU 和 Cloud TPU VMs 上运行,适用于 Python 3.11。开发者可以通过以下链接访问这些实现版本:

  • TTT-Linear 和 TTT-MLP 的 PyTorch 实现
  • TTT-Linear 和 TTT-MLP 的 JAX 实现
  • TTT-Linear 和 TTT-MLP 的快速实现
    这些实现版本不仅提供了模型的训练和推理代码,还包含了重现论文中吞吐量结果的脚本,方便开发者进行性能测试和优化。

此外,一些开发者还在 Medium 等平台上撰写了关于 TTT 模型的技术文章,详细介绍了 TTT 模型的架构、算法和应用场景。例如,Medium 上的一篇文章详细介绍了 TTT 层如何利用其更大的隐藏状态在长上下文中压缩更多信息,并指出 TTT-MLP 在长上下文中表现优于 TTT-Linear。文章链接如下:

  • Test-Time Training (TTT): A New Approach to Sequence Modeling

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5