Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Google DeepMind 推出 Gemini 1.5 Pro 机器人导航系统,提升任务处理能力

Google DeepMind 推出 Gemini 1.5 Pro 机器人导航系统,提升任务处理能力

2024-07-17

Google DeepMind 最近推出的 Gemini 1.5 Pro 机器人导航系统,凭借其高达 200 万个令牌的上下文窗口,提升了机器人在复杂环境中的导航和任务处理能力。上下文窗口指的是 AI 模型在执行任务时能参考的最大信息量。对 Gemini 1.5 Pro 来说,这意味着它可以在更大范围内记住和处理环境信息,从而更好地理解和执行复杂指令。

研究人员通过拍摄家庭或办公空间的视频导览,让机器人 “观看” 视频以了解环境。Gemini 1.5 Pro 的长上下文窗口让机器人能够记住这些环境细节,并在用户发出指令时,利用这些记忆进行导航和任务规划。比如,当用户问 “哪里可以充电?” 时,机器人能根据之前的视频导览,准确地引导用户找到电源插座。

在超过 9000 平方英尺的操作区域内,Gemini 1.5 Pro 驱动的机器人处理了 50 多条用户指令,成功率达到了 90%。这展示了长上下文窗口增强了机器人的环境理解能力,也提高了任务执行的准确性和效率。

长上下文窗口在处理复杂任务时能保持信息的连贯性和一致性。比如在机器人导航中,机器人需要记住房间布局、障碍物位置和用户指令。有了长上下文窗口,Gemini 1.5 Pro 能更好地理解环境,做出更智能的决策。

研究人员训练 Gemini 1.5 Pro 时,会结合视频导览和自然语言指令。比如,拍摄办公室的导览视频,并用自然语言告诉机器人各区域的功能和特征。这样,机器人通过观看视频和理解指令,在实际操作中表现更佳。

在实际应用中,Gemini 1.5 Pro 已经展示了其能力。比如在 Google DeepMind 的办公室,机器人能自主导航,避开障碍物,并根据指令完成任务。在一个实验中,机器人被要求找到一个可以画画的地方。凭借长上下文窗口,它记住了办公室的布局,准确地将用户带到了白板前。

Gemini 1.5 Pro 的长上下文窗口为机器人带来了任务规划能力。它可以处理多达 200 万个上下文信息,这让机器人在理解和执行复杂指令时更加得心应手。不仅是简单的导航,甚至是多步骤任务的规划和执行也变得游刃有余。比如,当用户要求机器人找到某个物品时,机器人会先导航到指定位置,检查物品是否存在,然后返回报告结果。

多模态指令导航是指机器人能够理解和执行包含多种输入形式(如文字、图像、语音等)的指令,Gemini 1.5 Pro 的长上下文窗口在这方面可以处理大量的上下文信息,让机器人更好地理解用户的意图,并根据不同的输入形式进行导航。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5