2024 年 10 月 31 日,位于旧金山的初创公司 Physical Intelligence(简称 Pi)发布了其首个通用机器人基础模型——π0(pi-zero)。该模型旨在赋予机器人执行多种家务任务的能力,如折叠衣物、清洁桌面和组装纸箱等。
Pi 的联合创始人兼首席执行官 Karol Hausman 表示,π0 的开发灵感源自大型语言模型(LLM)的成功经验。通过训练算法处理大量机器人执行各种任务的数据,π0 展示了在物理世界中实现通用人工智能的潜力。
联合创始人 Sergey Levine 指出,π0 的训练数据规模远超以往任何机器人模型,尽管与 ChatGPT 相比仍有差距,但其表现已接近早期的 GPT-1 模型。他强调,π0 的开发标志着机器人技术向通用智能迈出了重要一步。
尽管 π0 在多任务处理上展现了强大能力,但团队成员也承认,模型仍存在改进空间。例如,在某些任务中,机器人可能会出现意外行为,如过度填充蛋盒或将盒子从桌上推下等。这些问题表明,π0 在应对现实世界的复杂性时仍需进一步优化。
实现物理智能?
与 LLMs 类似,π0 模型经过广泛和多样化的数据训练,能够遵循各种文本指令。与 LLMs 不同的是,它涵盖了图像、文本和动作,并通过训练机器人的具身经验获得物理智能,学习直接输出低级电机命令。
π0 使用互联网规模的视觉语言预训练、开源机器人操作数据集以及自己的数据集,包括 8 种不同机器人的灵巧任务。然后,模型可以通过零样本提示或微调来执行各种任务。
π0 还从互联网规模的预训练中继承了语义知识和视觉理解,从预训练的视觉语言模型(VLM)开始。VLMs 被训练以模拟网络上的文本和图像——广泛使用的 VLMs 包括 GPT-4V 和 Gemini。使用一个较小的 30 亿参数 VLM 作为起点,并将其适应于实时灵巧机器人控制。
VLMs 有效地从网络上转移语义知识,但它们被训练为只输出离散的语言标记。灵巧的机器人操作需要 π0 以高频率输出电机命令,高达每秒 50 次。为了提供这种级别的灵活性,Pi 开发了一种新的方法,通过流匹配将预训练的 VLM 与连续动作输出相结合。
从折叠衣物到餐桌清理
复杂和灵巧的任务需要对模型进行微调,如折叠衣物,类似于 LLM 设计师采用的后训练过程。预训练教会模型了解物理世界,而微调迫使它很好地执行特定任务。
- 整理衣服:- 折叠衣物,衣物皱褶多样,需灵活动作。
- 餐桌清理:- 涉及拿起物品、分类放入箱或桶。机器人学会堆叠盘子、抖落垃圾等策略。
- 组装盒子:- 机器人需构建纸板箱,折叠并塞入围边,需观察调整,用双臂支撑以防散开。
Thrive Capital 领投,融资 7000 万
Physical Intelligence 位于旧金山,成立于 2024 年,由一群在人工智能和机器人领域享有盛誉的专家共同创办,包括前谷歌 DeepMind 研究员 Karol Hausman、前谷歌 AI 研究员 Chelsea Finn 以及计算机科学教授 Sergey Levine 等。
Pi 致力于创建一个能够控制任何机器人并执行各种任务的通用 AI 模型。其核心理念是通过整合跨平台的机器人策略、视觉与语言模型的迁移学习,以及模仿学习来掌握灵活技能。联合创始人 Karol Hausman 表示,该项目将收集前所未有规模的机器人数据,以改进算法并训练超大模型,推动 AI 在物理世界的应用。
目前,Physical Intelligence 的团队由十名成员组成,均为各自领域的顶尖人才。除了 Hausman 和 Finn 外,Sergey Levine 是团队的重要成员之一,他在自主智能体学习复杂行为的算法研究方面具有深厚的背景。其他团队成员包括前谷歌研究科学家 Brian Ichter、特斯拉前工程师和 Anduril Industries 副总裁等。
尽管 Physical Intelligence 成立仅几个月,但已获得了 7000 万美元的融资,种子轮由 Thrive Capital 领投,Khosla Ventures、Lux Capital、 OpenAI 和红杉资本跟投。
联合创始人兼 CEO 卡罗尔·豪斯曼(Karol Hausman)曾在谷歌担任机器人技术科学家,他强调了该公司雄心勃勃的目标:“我们的目标是通过一个通用模型将 AI 带入物理世界,该模型可以为任何机器人或任何物理设备提供动力,基本上是为了任何应用程序。”