谷歌 TPU vs 英伟达 GPU，苹果为何选择前者训练 AI？

苹果公司最近宣布，他们的最新人工智能系统 Apple Intelligence 的基础模型（AFM）是使用谷歌的 TPU 芯片进行训练的，而不是传统的英伟达 GPU。根据苹果发布的技术论文，AFM 由两部分组成：服务器端的 AFM-server 和设备端的 AFM-on-device。AFM-server 在 8192 个 TPUv4 芯片上预训练，处理了 6.3 万亿个 tokens 的数据，而 AFM-on-device 则从更大的模型中蒸馏和修剪出来，以便在设备上高效运行。

AFM-server 主要用在云端，处理大规模数据和复杂任务，而 AFM-on-device 则是为设备端优化的小型版本，专注于本地高效计算。为了处理这些数据，苹果选用了谷歌的 TPUv4 芯片，总共用了 8192 个。这些芯片经过优化设计，使得 AFM-server 能在较短时间内完成大规模训练任务。为了让 AFM-on-device 在设备端高效运行，苹果采用了蒸馏和修剪技术，从更大的 AFM-server 模型中提取关键特性。这样不仅保留了模型的核心功能，还大大减少了模型体积和计算需求，确保其能在 iPhone 等设备上运行。

谷歌的 TPU 和英伟达的 GPU 各有特点。TPU 在速度和成本效益上表现突出，特别是在大规模并行计算任务中更为优异。而英伟达的 GPU 则以其通用性和广泛应用闻名，适用于各种不同的 AI 任务。苹果选择谷歌 TPU 主要是看重其性能和成本效益。TPU 在大规模训练任务中的成本效益更高。此外，TPU 的定制化和优化设计，让它在处理特定 AI 任务时表现更加出色。

苹果发布的技术论文详细介绍了 AFM 的开发和训练过程，主要章节包括：

引言：概述 AFM 的背景和目标。
硬件配置：详细描述端侧 AFM 和服务器 AFM 的硬件配置和训练环境。
模型架构：介绍 AFM 的模型结构和技术细节。
训练过程：详细说明训练数据、参数配置和优化策略。
实验结果：展示模型在不同任务上的性能和效果。

Apple Intelligence 在 iPhone 和其他设备上有广泛应用：

智能助手：提升 Siri 的自然语言处理能力，更准确地理解和响应用户请求。
图像处理：通过 AI 技术优化照片和视频处理效果。
个性化推荐：根据用户行为和偏好，提供个性化内容推荐和服务。

在云端，Apple Intelligence 为开发者和企业提供 AI 服务：

数据分析：利用 AI 进行大规模数据分析，帮助企业做出决策。
自动化流程：通过 AI 自动化处理复杂业务流程。
智能客服：提供智能客服解决方案。