Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

无需复杂提示工程,LeCo 方法如何让 AI 自我纠正?

2024-09-18

近日,香港城市大学与华为诺亚方舟实验室合作提出了一种名为 Learning from Correctness(LeCo)的新方法,旨在提升大型语言模型(LLMs)的自我纠正能力。这项研究由香港城市大学计算机系博士生姚宇璇、华为诺亚方舟实验室研究员吴涵和郭志江共同完成。LeCo 方法无需依赖复杂的提示工程、人类反馈或外部工具,克服了现有自我纠正方法的诸多限制。通过让模型从自身错误中学习,LeCo 方法减少了时延和成本,提高了模型的稳定性和效率。

LeCo 方法的核心思想是通过模型自动生成的推理步骤来进行自我纠正。研究人员发现,如果模型能够识别更多的正确推理步骤,则可以缩小搜索空间,从而更高效地找到完整的正确推理路径。LeCo 通过计算每个推理步骤的置信度分数来评估其正确性。低分的推理步骤被视为潜在错误,而之前的步骤则被视为正确。通过将这些正确步骤附加到输入中,模型可以逐步接近正确的答案。

为了找出正确的推理步骤,LeCo 设计了三种基于 logits 的评分方法:单步置信度、单步散度分数和步间转移分数。单步置信度衡量每个步骤的平均 token 概率,单步散度分数衡量标记概率的分布均匀性,步间转移分数则衡量连续步骤之间的转换情况。通过这些方法,LeCo 能够识别出大约 65% 的错误步骤。

LeCo 方法分为两个阶段:初始阶段和反思阶段。初始阶段通过任何链式思考(CoT)方法生成一个初始解,然后进入反思阶段,计算每个推理步骤的置信度分数,并选择分数最低的步骤作为 “犯错的第一步”。之前的步骤被视为正确,并作为输入继续推理。LeCo 在这两个阶段交替进行,直到达到停止条件。

实验结果显示,LeCo 在逻辑推理、常识推理和数学推理等任务中表现良好。它减少了 token 消耗和迭代次数。人工分析表明,LeCo 能够较为准确地识别推理过程中的正确和错误步骤,但仍有一定的提升空间。

LeCo 方法的潜在应用非常广泛。首先,它可以用于改进现有的 AI 助手和聊天机器人,使其在回答用户问题时更加准确。其次,LeCo 方法还可以应用于自动化文档生成、数据分析和决策支持系统中。此外,LeCo 方法还可以用于教育领域,帮助学生更好地理解复杂问题的推理过程。

LeCo 方法也面临一些挑战。例如,尽管它在实验中表现良好,但在实际应用中可能会遇到更多复杂的情况,需要进一步优化和调整。此外,LeCo 方法的计算成本和资源消耗也是需要考虑的问题。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5