谷歌 DeepMind 的研究团队在 ACL 2024 上发布了一篇论文,介绍了他们的方法 ——“相关解释忠实度”(Correlational Explanatory Faithfulness)。这个方法的核心在于,它能评估大型语言模型(LLM)生成的解释是否真正反映了模型的决策原因,而不是简单的合理化结果。这种方法适用于事后解释和思维链(CoT)解释,不容易被简单操控。
大型语言模型(LLM)在实际应用中展现了潜力,但也面临着解释不透明、决策过程难以理解的问题,这对模型的信任度和透明度提出了不少挑战。解释性问题在实际应用中尤为重要。用户和开发者需要知道模型是如何得出某个结论的,以确保其决策过程是合理和可信的。这不仅有助于提升模型的透明度,还能增强用户对模型的信任。特别是在医疗、金融等高风险领域,模型决策的透明度和可信度显得尤为关键。
“相关解释忠实度” 通过分析模型生成的解释与实际决策过程之间的相关性,来判断解释的真实性。这种方法适用于事后解释和思维链(CoT)解释。事后解释是指在模型生成结果后,对其决策过程进行解释;而思维链解释则是在模型生成结果的过程中,逐步解释其每一步的决策。这方法的一个显著优势是其抗操控性。传统的解释方法可能会被人为操控,生成看似合理但实际上并不真实的解释。而 “相关解释忠实度” 通过严格的相关性分析,确保了解释的真实性和可靠性。
研究团队在实验中用了一些具体案例来验证 “相关解释忠实度” 方法的有效性。这些案例涵盖了各种应用场景,比如医疗诊断、金融预测和法律判决。通过这些案例,研究团队能够全面评估该方法在不同场景下的表现。