美国机器人公司 Figure AI 在终止与 OpenAI 的合作后,正式发布全新自研模型 Helix。这款视觉 – 语言 – 动作模型通过两个互补系统实现了技术突破:70 亿参数的端侧视觉语言模型负责场景理解,8000 万参数的视觉运动策略以每秒 200 次频率控制机械关节,两者通过端到端训练实现通信。
搭载 Helix 的机器人能响应自然语言指令完成复杂操作。在演示中,机器人根据「拿起沙漠里的东西」的模糊指令,准确从一堆物品中选出仙人掌玩具。模型仅用 500 小时监督数据训练,数据量仅为行业常规需求的 5%,且无需多机器人协作数据。
双机协作场景中,两台机器人在面对从未见过的杂物时,自主协商物品分类摆放策略。研究人员观察到,机器人在交接物品前会进行「眼神确认」—— 当一台机器人发现目标物品被同伴遮挡时,会主动调整视角与对方形成视线交汇,确保动作衔接无误。在水果摆放测试中,左侧机器人将果盆拉到合适位置,右侧机器人完成摆放后,左侧再将果盆归位。
Figure AI 当前融资目标 15 亿美元,估值飙升至 395 亿美元,较去年 26 亿美元估值增长 14 倍。公司计划未来四年量产 10 万台人形机器人,宝马工厂已部署早期版本完成金属件装配等工业任务。
创始团队因发现通用大模型与机器人硬件的适配障碍,转而研发深度集成系统。这种软硬件协同开发模式使得机器人能直接调用语义知识转化为动作指令,避免了传统方法中每个动作需要单独训练的低效流程。
行业竞争格局中,特斯拉 Optimus 仍处原型阶段,波士顿动力商业化进程缓慢,Agility Robotics 专注仓储细分领域。Figure AI 通过量产计划和真实场景验证形成差异优势。