Evaluating Model Explanations without Ground Truth
Created by
Haebom
저자
Kaivalya Rawal, Zihao Fu, Eoin Delaney, Chris Russell
개요
본 논문은 단일 모델 예측에 대해 여러 경쟁적이고 상반되는 설명이 존재할 수 있으며, 어떤 설명을 사용할지 선택하는 것이 어렵다는 문제를 제기합니다. 기존의 설명 평가 프레임워크는 이상적인 "ground-truth" 설명과 비교하거나 중요한 입력에 대한 모델 민감도를 검증하여 품질을 측정합니다. 본 논문은 이러한 접근 방식의 한계를 지적하고, 지역적 특징 중요도 설명에 대한 설명 평가 전략의 미래 개발을 위한 세 가지 바람직한 원칙을 제시합니다. 그리고 이러한 원칙을 만족하는 ground-truth Agnostic eXplanation Evaluation framework (AXE)를 제안합니다. AXE는 기존 접근 방식과 달리 이상적인 ground-truth 설명에 대한 접근이나 모델 민감도에 의존하지 않고, 설명 품질에 대한 독립적인 척도를 제공합니다. 베이스라인과의 비교를 통해 AXE를 검증하고, 설명 공정성 왜곡(fairwashing)을 감지하는 데 AXE를 사용하는 방법을 보여줍니다. 코드는 https://github.com/KaiRawal/Evaluating-Model-Explanations-without-Ground-Truth 에서 이용 가능합니다.