最近,PyTorch 团队推出了一个叫 TorchChat 的新工具,专门用来加速本地大语言模型(LLM)的推理。无论是笔记本电脑、台式机还是移动设备,TorchChat 都能让这些设备运行 LLM。
TorchChat 带来了一系列实用功能,确保用户能在本地设备上运行大语言模型:
- 支持多种硬件加速方式,包括 GPU 和 CPU。
- 简化的 API 让开发者集成和使用大语言模型。
- 支持多种预训练模型,用户可以根据需求选择模型来进行推理。
在设备兼容性上,TorchChat 能在 MacBook Pro、Linux x86 和 CUDA 设备上运行,还能在移动设备如 Samsung Galaxy S23 和 iPhone 上推理。官方测试数据显示,通过 TorchChat 运行的 LLM 在这些设备上的速度超过了 8 Tokens/s。
TorchChat 提供了多种调用方式,包括 Python 命令行和 REST API,方便用户在不同场景下使用。它利用 PyTorch 的 AOTInductor 后端生成二进制文件,提升模型的推理性能。这些二进制文件可以在桌面和移动设备上运行,支持各种应用场景。
TorchChat 在服务器端应用表现出色,适合需要高性能计算的场景。对于个人电脑和笔记本电脑用户来说,TorchChat 提供了本地推理能力。它也支持在移动设备上进行本地推理,提供 LLM 交流能力。
PyTorch 团队欢迎开发者和研究人员参与进来,开发和改进 TorchChat。源代码在 GitHub 上,用户可以提交问题和建议。团队还准备了详细的文档和教程,助你上手。在用户反馈方面,PyTorch 团队主要通过 GitHub 平台与大家互动。你可以在 GitHub 上提交 issue 或 pull request,与开发团队和其他社区成员讨论。GitHub 链接:TorchChat