Google DeepMind 最近推出的 Gemini 1.5 Pro 机器人导航系统,凭借其高达 200 万个令牌的上下文窗口,提升了机器人在复杂环境中的导航和任务处理能力。上下文窗口指的是 AI 模型在执行任务时能参考的最大信息量。对 Gemini 1.5 Pro 来说,这意味着它可以在更大范围内记住和处理环境信息,从而更好地理解和执行复杂指令。
研究人员通过拍摄家庭或办公空间的视频导览,让机器人 “观看” 视频以了解环境。Gemini 1.5 Pro 的长上下文窗口让机器人能够记住这些环境细节,并在用户发出指令时,利用这些记忆进行导航和任务规划。比如,当用户问 “哪里可以充电?” 时,机器人能根据之前的视频导览,准确地引导用户找到电源插座。
在超过 9000 平方英尺的操作区域内,Gemini 1.5 Pro 驱动的机器人处理了 50 多条用户指令,成功率达到了 90%。这展示了长上下文窗口增强了机器人的环境理解能力,也提高了任务执行的准确性和效率。
长上下文窗口在处理复杂任务时能保持信息的连贯性和一致性。比如在机器人导航中,机器人需要记住房间布局、障碍物位置和用户指令。有了长上下文窗口,Gemini 1.5 Pro 能更好地理解环境,做出更智能的决策。
研究人员训练 Gemini 1.5 Pro 时,会结合视频导览和自然语言指令。比如,拍摄办公室的导览视频,并用自然语言告诉机器人各区域的功能和特征。这样,机器人通过观看视频和理解指令,在实际操作中表现更佳。
在实际应用中,Gemini 1.5 Pro 已经展示了其能力。比如在 Google DeepMind 的办公室,机器人能自主导航,避开障碍物,并根据指令完成任务。在一个实验中,机器人被要求找到一个可以画画的地方。凭借长上下文窗口,它记住了办公室的布局,准确地将用户带到了白板前。
Gemini 1.5 Pro 的长上下文窗口为机器人带来了任务规划能力。它可以处理多达 200 万个上下文信息,这让机器人在理解和执行复杂指令时更加得心应手。不仅是简单的导航,甚至是多步骤任务的规划和执行也变得游刃有余。比如,当用户要求机器人找到某个物品时,机器人会先导航到指定位置,检查物品是否存在,然后返回报告结果。
多模态指令导航是指机器人能够理解和执行包含多种输入形式(如文字、图像、语音等)的指令,Gemini 1.5 Pro 的长上下文窗口在这方面可以处理大量的上下文信息,让机器人更好地理解用户的意图,并根据不同的输入形式进行导航。