PyTorch 团队推出 TorchChat，加速本地大语言模型推理

最近，PyTorch 团队推出了一个叫 TorchChat 的新工具，专门用来加速本地大语言模型（LLM）的推理。无论是笔记本电脑、台式机还是移动设备，TorchChat 都能让这些设备运行 LLM。

TorchChat 带来了一系列实用功能，确保用户能在本地设备上运行大语言模型：

支持多种硬件加速方式，包括 GPU 和 CPU。
简化的 API 让开发者集成和使用大语言模型。
支持多种预训练模型，用户可以根据需求选择模型来进行推理。

在设备兼容性上，TorchChat 能在 MacBook Pro、Linux x86 和 CUDA 设备上运行，还能在移动设备如 Samsung Galaxy S23 和 iPhone 上推理。官方测试数据显示，通过 TorchChat 运行的 LLM 在这些设备上的速度超过了 8 Tokens/s。

TorchChat 提供了多种调用方式，包括 Python 命令行和 REST API，方便用户在不同场景下使用。它利用 PyTorch 的 AOTInductor 后端生成二进制文件，提升模型的推理性能。这些二进制文件可以在桌面和移动设备上运行，支持各种应用场景。

TorchChat 在服务器端应用表现出色，适合需要高性能计算的场景。对于个人电脑和笔记本电脑用户来说，TorchChat 提供了本地推理能力。它也支持在移动设备上进行本地推理，提供 LLM 交流能力。

PyTorch 团队欢迎开发者和研究人员参与进来，开发和改进 TorchChat。源代码在 GitHub 上，用户可以提交问题和建议。团队还准备了详细的文档和教程，助你上手。在用户反馈方面，PyTorch 团队主要通过 GitHub 平台与大家互动。你可以在 GitHub 上提交 issue 或 pull request，与开发团队和其他社区成员讨论。GitHub 链接：TorchChat