Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
微软亚洲研究院发布 T-MAC 技术,手机也能跑大模型!

微软亚洲研究院发布 T-MAC 技术,手机也能跑大模型!

2024-08-09

2024 年 8 月 9 日,微软亚洲研究院宣布了一项名为 T-MAC 的新技术,能够在仅有 CPU 的情况下运行大模型。该技术通过基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘法,从而提升端侧设备的模型运行速度。T-MAC 技术减少了资源消耗,使得在手机、PC 和树莓派等设备上运行大模型成为可能。

T-MAC 技术的核心在于其基于查找表(LUT)的计算范式,这一创新使得在低比特参数下进行高效的矩阵乘法成为可能。传统的模型量化方法通常需要将低精度的权重转换回高精度,这个过程叫做反量化(dequantization),不仅效率低,而且当比特数进一步降低时,并不能带来性能上的提升。T-MAC 通过查找表直接支持混合精度矩阵乘法,避免了反量化的过程,从而提升了推理性能。

实验结果显示,T-MAC 在配备了最新高通 Snapdragon X Elite 芯片组的 Surface AI PC 上,3B BitNet-b1.58 模型的生成速率可达每秒 48 个 token,2bit 7B llama 模型的生成速率可达每秒 30 个 token,4bit 7B llama 模型的生成速率可达每秒 20 个 token。当部署 llama-2-7B-4bit 模型时,尽管使用 NPU 可以生成每秒 10.4 个 token,但 CPU 在 T-MAC 的助力下,仅使用两核便能达到每秒 12.6 个 token,最高甚至可以达到每秒 22 个 token。

即使在较低端的设备如 Raspberry Pi 5 上,T-MAC 针对 3B BitNet-b1.58 也能达到每秒 11 个 token 的生成速率。达到相同的生成速率,T-MAC 所需的核心数仅为原始 llama.cpp 的 1/4 至 1/6,降低能耗的同时也为其它应用留下计算资源。T-MAC 的计算性能会随着比特数的降低而线性提高,这一现象在基于反量化去实现的 GPU 和 NPU 中是难以观察到的。

T-MAC 的关键创新在于采用基于查找表(LUT)的计算范式,而非传统的乘累加(MAC)计算范式。T-MAC 利用查找表直接支持低比特计算,从而消除了其他系统中必须的反量化操作,并且减少了乘法和加法操作的数量。通过这种方法,T-MAC 抛弃了 CPU 上效率不高的 FMA(乘加)指令,转而使用功耗更低、效率也更高的 TBL/PSHUF(查表)指令。

T-MAC 技术的应用场景非常广泛,尤其适合在资源受限的端侧设备上部署大语言模型。手机、PC、树莓派等设备都可以通过 T-MAC 技术实现大模型推理。这对于需要在移动设备上运行复杂 AI 任务的应用场景,如实时翻译、智能助手、图像识别等,具有重要意义。

与其他技术相比,T-MAC 具有一些优势。传统的 NPU 和 GPU 虽然在性能上强大,但其成本和能耗较高,且需要专用的硬件支持。而 T-MAC 仅依赖于 CPU,不需要额外的硬件加速器,降低了部署成本和能耗。

此外,T-MAC 技术的开源也吸引了大量的研究者和开发者参与其中。微软亚洲研究院在 GitHub 上发布了 T-MAC 的代码和相关文档,鼓励开发者进行二次开发和优化。许多开发者在 GitHub 上提交了自己的改进方案和优化建议,进一步提升了 T-MAC 的性能和适用性。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5