Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations

Created by
  • Haebom

저자

Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi

개요

본 논문은 대규모 언어 모델(LLM)이 자체적으로 생성한 반실증적 설명(SCEs)을 통해 의사결정 과정을 설명하는 능력을 평가한다. SCEs는 모델이 예측 결과를 변경하기 위해 입력을 수정하여 설명하는 방식이다. 연구 결과, LLMs는 유효한 SCEs를 생성하지만, 최소한의 수정으로는 생성하지 못하며, 이는 모델의 의사결정 과정에 대한 통찰력을 거의 제공하지 못한다는 것을 보여준다. 특히 최소한의 수정으로 SCEs를 생성하도록 요청했을 때는 예측 결과를 변경하지 못하는 과도하게 작은 수정을 하는 경향이 있다. 여러 LLMs, 데이터셋, 평가 설정에서 유효성과 최소성 사이의 상충관계가 관찰되었다. 따라서 SCEs는 효과적인 설명 가능성 도구가 아니며, 모델 동작에 대한 오해를 불러일으킬 수 있다는 결론을 내린다. 고위험 상황에서 LLMs를 배포하려면 신뢰할 수 없는 자체 설명이 후속 의사결정에 미치는 영향을 고려해야 한다.

시사점, 한계점

시사점: LLM의 자체 생성 반실증적 설명(SCEs)은 모델의 의사결정 과정을 설명하는 데 효과적이지 않으며, 오히려 오해를 불러일으킬 수 있다는 것을 밝혔다. 고위험 상황에서 LLM을 배포할 때 신뢰할 수 없는 자체 설명의 위험성을 고려해야 한다.
한계점: SCEs의 유효성과 최소성 사이의 상충관계가 모든 LLM, 데이터셋, 평가 설정에서 일관되게 나타나는지에 대한 추가 연구가 필요하다. 다양한 유형의 설명 가능성 기법과 SCEs의 비교 분석이 필요하다.
👍