Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations

Created by
  • Haebom

作者

Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi

概要

本論文は、大規模言語モデル(LLM)が独自に生成した反実証的説明(SCEs)を通じて意思決定プロセスを説明する能力を評価する。 SCEは、モデルが予測結果を変更するために入力を変更して説明する方法です。研究の結果、LLMは有効なSCEを生成しますが、最小限の修正では生成できず、これはモデルの意思決定プロセスに関する洞察をほとんど提供しないことを示しています。特に、最小限の修正でSCEを生成するように要求したときは、予測結果を変更できない過度に小さな修正をする傾向がある。いくつかのLLM、データセット、および評価設定では、妥当性と最小性の間の矛盾が観察されました。したがって、SCEは効果的な説明可能性ツールではなく、モデルの動作について誤解を招く可能性があると結論付けています。高リスクの状況でLLMを展開するには、信頼できない自己説明が後続の意思決定に与える影響を考慮する必要があります。

Takeaways、Limitations

Takeaways: LLMの自己生成反実証的説明(SCEs)は、モデルの意思決定プロセスを説明するのに効果的ではなく、むしろ誤解を招く可能性があることを明らかにした。高リスクの状況でLLMを配布するときは、信頼できない自己説明の危険性を考慮する必要があります。
Limitations: SCEの有効性と最小性の間の競合関係がすべてのLLM、データセット、および評価設定で一貫して現れるかどうかについてのさらなる研究が必要です。様々なタイプの記述可能性技術とSCEの比較分析が必要である。
👍