2024 年 8 月 14 日,AI 初创公司 MultiOn 宣布推出其最新研究成果 ——Agent Q,这是一种具有规划和自愈能力的下一代 AI 代理。Agent Q 结合了搜索、自我批判和强化学习,旨在解决传统大规模语言模型(LLM)训练技术的局限性。现有的方法如专家示范基础上的有监督微调(SFT),由于误差累积和探索数据的有限,往往无法满足代理多步骤任务的要求,导致次优策略的产生。Agent Q 通过引导蒙特卡罗树搜索(MCTS)和人工智能自我批判与迭代微调相结合,利用人类反馈强化学习(RLFH)方法(如直接偏好优化(DPO)算法)进行创新,使其在多步骤推理任务中的概括能力增强。
在具体实现上,Agent Q 通过 MCTS 进行搜索,评估不同路径的潜在结果,并选择最优路径进行执行。自我批判机制则允许代理在执行过程中不断反思和调整策略,避免重复错误。迭代微调则通过不断优化模型参数,使其在面对新任务时能够更好地适应和应对。
在 Open Table(在线餐厅预订网站)上进行的实际预订实验中,Agent Q 提高了 LLaMa-3 模型的零样本性能,成功率从 18.6% 提高到 81.7%,通过一天的自主数据收集,成功率又进一步提升至 95.4%。这一结果表明,Agent Q 在处理复杂、多步骤任务时具有优势。
Agent Q 的实际应用前景广阔,尤其在需要复杂决策和自适应学习的动态环境中。例如:
- 在电子商务领域,Agent Q 可以用于自动化客户服务,通过分析用户需求并提供个性化推荐。
- 在金融领域,Agent Q 可以用于风险评估和投资决策,通过分析市场数据并预测趋势,帮助投资者做出决策。
- 在医疗领域,通过分析患者数据并提供个性化治疗方案,Agent Q 可以辅助医生进行诊断和治疗。
- 在智能家居领域,Agent Q 可以用于家庭自动化管理,通过学习用户习惯并进行自我调整。

