Google DeepMind 推出 Gemini 1.5 Pro 机器人导航系统，提升任务处理能力

Google DeepMind 最近推出的 Gemini 1.5 Pro 机器人导航系统，凭借其高达 200 万个令牌的上下文窗口，提升了机器人在复杂环境中的导航和任务处理能力。上下文窗口指的是 AI 模型在执行任务时能参考的最大信息量。对 Gemini 1.5 Pro 来说，这意味着它可以在更大范围内记住和处理环境信息，从而更好地理解和执行复杂指令。

研究人员通过拍摄家庭或办公空间的视频导览，让机器人 “观看” 视频以了解环境。Gemini 1.5 Pro 的长上下文窗口让机器人能够记住这些环境细节，并在用户发出指令时，利用这些记忆进行导航和任务规划。比如，当用户问 “哪里可以充电？” 时，机器人能根据之前的视频导览，准确地引导用户找到电源插座。

在超过 9000 平方英尺的操作区域内，Gemini 1.5 Pro 驱动的机器人处理了 50 多条用户指令，成功率达到了 90%。这展示了长上下文窗口增强了机器人的环境理解能力，也提高了任务执行的准确性和效率。

长上下文窗口在处理复杂任务时能保持信息的连贯性和一致性。比如在机器人导航中，机器人需要记住房间布局、障碍物位置和用户指令。有了长上下文窗口，Gemini 1.5 Pro 能更好地理解环境，做出更智能的决策。

研究人员训练 Gemini 1.5 Pro 时，会结合视频导览和自然语言指令。比如，拍摄办公室的导览视频，并用自然语言告诉机器人各区域的功能和特征。这样，机器人通过观看视频和理解指令，在实际操作中表现更佳。

在实际应用中，Gemini 1.5 Pro 已经展示了其能力。比如在 Google DeepMind 的办公室，机器人能自主导航，避开障碍物，并根据指令完成任务。在一个实验中，机器人被要求找到一个可以画画的地方。凭借长上下文窗口，它记住了办公室的布局，准确地将用户带到了白板前。

Gemini 1.5 Pro 的长上下文窗口为机器人带来了任务规划能力。它可以处理多达 200 万个上下文信息，这让机器人在理解和执行复杂指令时更加得心应手。不仅是简单的导航，甚至是多步骤任务的规划和执行也变得游刃有余。比如，当用户要求机器人找到某个物品时，机器人会先导航到指定位置，检查物品是否存在，然后返回报告结果。

多模态指令导航是指机器人能够理解和执行包含多种输入形式（如文字、图像、语音等）的指令，Gemini 1.5 Pro 的长上下文窗口在这方面可以处理大量的上下文信息，让机器人更好地理解用户的意图，并根据不同的输入形式进行导航。