Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Model Explanations without Ground Truth

Created by
  • Haebom

저자

Kaivalya Rawal, Zihao Fu, Eoin Delaney, Chris Russell

개요

본 논문은 단일 모델 예측에 대해 여러 경쟁적이고 상반되는 설명이 존재할 수 있으며, 어떤 설명을 사용할지 선택하는 것이 어렵다는 문제를 제기합니다. 기존의 설명 평가 프레임워크는 이상적인 "ground-truth" 설명과 비교하거나 중요한 입력에 대한 모델 민감도를 검증하여 품질을 측정합니다. 본 논문은 이러한 접근 방식의 한계를 지적하고, 지역적 특징 중요도 설명에 대한 설명 평가 전략의 미래 개발을 위한 세 가지 바람직한 원칙을 제시합니다. 그리고 이러한 원칙을 만족하는 ground-truth Agnostic eXplanation Evaluation framework (AXE)를 제안합니다. AXE는 기존 접근 방식과 달리 이상적인 ground-truth 설명에 대한 접근이나 모델 민감도에 의존하지 않고, 설명 품질에 대한 독립적인 척도를 제공합니다. 베이스라인과의 비교를 통해 AXE를 검증하고, 설명 공정성 왜곡(fairwashing)을 감지하는 데 AXE를 사용하는 방법을 보여줍니다. 코드는 https://github.com/KaiRawal/Evaluating-Model-Explanations-without-Ground-Truth 에서 이용 가능합니다.

시사점, 한계점

시사점: ground-truth에 의존하지 않는 새로운 설명 평가 프레임워크 AXE를 제시하여, 기존 방법의 한계를 극복하고 설명 품질에 대한 독립적인 척도를 제공합니다. 설명 공정성 왜곡(fairwashing) 감지에도 활용 가능성을 보여줍니다.
한계점: AXE 프레임워크의 일반적인 적용 가능성 및 다양한 모델 유형과 설명 방법에 대한 성능 평가가 추가적으로 필요합니다. 제시된 세 가지 원칙의 보편성과 객관성에 대한 추가적인 논의가 필요할 수 있습니다.
👍