2024 年 8 月 9 日,哈尔滨工业大学团队宣布了一项研究成果:Optimus-1 智能体在 Minecraft 游戏中展现了接近人类水平的表现。Optimus-1 能够完成从分析所需材料、计划制作步骤、寻找原材料到完成制作过程的一系列流程,这标志着 AI 在复杂、开放环境中执行长期任务的能力取得了进展。
研究团队针对现有智能体在开放世界中难以完成长期任务的问题,提出了一种混合多模态记忆模块(Hybrid Multimodal Memory Module, HMMM)。该模块包含两个核心组件:分层有向知识图谱(Hierarchical Directed Knowledge Graph, HDKG)和抽象多模态经验池(Abstract Multimodal Experience Pool, AMEP)。HDKG 能够表示和学习世界知识,而 AMEP 则为智能体提供历史经验参考。在这些技术的支持下,Optimus-1 在 Minecraft 中能够自主完成复杂任务。
在 HMMM 的基础上,研究团队进一步构建了 Optimus-1 智能体系统。该系统配备了专门的知识引导规划器(Knowledge-Guided Planner)和经验驱动反思器(Experience-Driven Reflector)。知识引导规划器利用 HDKG 提供的信息,制定详细的任务执行计划;经验驱动反思器则通过 AMEP 提供的历史经验,对任务执行过程进行实时反思和调整。
实验结果表明,Optimus-1 在具有挑战性的长视距任务基准测试中优于现有的所有智能体系统。在 Minecraft 的测试中,Optimus-1 能够完成复杂的任务,展现出泛化能力。例如,在 “制作一把石剑” 的任务中,Optimus-1 能够自主分析所需材料、制定制作步骤、寻找原材料并最终完成制作过程。相比之下,其他智能体在面对类似任务时往往无法有效完成任务。
研究团队还将多模态大语言模型(Multimodal Large Language Model, MLLM)整合到 Optimus-1 中。在混合多模态记忆模块的支持下,Optimus-1 在人机交互任务中的表现超越了 GPT-4V 基线。这一成果表明,Optimus-1 不仅在特定任务中表现良好,还具备在不同任务和环境中应用的能力。
Optimus-1 智能体在 Minecraft 中的展示了其在其他应用中的潜力。除了游戏领域,Optimus-1 的技术可以应用于多个复杂和开放的环境中,如自动驾驶、智能制造、医疗诊断等。在自动驾驶领域,Optimus-1 的混合多模态记忆模块可以帮助车辆在复杂的交通环境中做出更智能的决策。HDKG 可以提供道路和交通规则的知识,而 AMEP 则可以记录和分析过去的驾驶经验,从而提高驾驶的安全性和效率。在智能制造领域,Optimus-1 可以帮助工厂实现自动化生产。通过 HDKG,Optimus-1 可以了解生产流程和设备操作的知识,而 AMEP 则可以记录和分析生产过程中的数据,从而优化生产效率和质量。在医疗诊断领域,Optimus-1 可以辅助医生进行诊断和治疗。通过 HDKG,Optimus-1 可以了解医学知识和诊断流程,而 AMEP 则可以记录和分析患者的病历和治疗数据,从而提供个性化的诊断和治疗建议。