ABLE: Using Adversarial Pairs to Construct Local Models for Explaining Model Predictions
Created by
Haebom
Category
Empty
저자
Krishna Khadka, Sunny Shree, Pujan Budhathoki, Yu Lei, Raghu Kacker, D. Richard Kuhn
개요
머신 러닝 모델의 투명성 부족 문제를 해결하기 위해, 본 논문은 LIME과 같은 기존 로컬 설명 기법의 한계점을 극복하는 새로운 방법인 Adversarially Bracketed Local Explanation (ABLE)을 제안합니다. ABLE은 테스트 인스턴스 주변에 가우시안 노이즈를 추가하여 생성된 이웃 점들에 대해, 적대적 공격을 통해 다른 레이블을 갖는 점과 동일한 레이블을 갖는 점을 생성하여 적대적 쌍을 만듭니다. 이러한 적대적 쌍을 이용하여 로컬 의사 결정 경계를 근사하는 선형 모델을 학습시킵니다. UCI 벤치마크 데이터셋 및 3가지 딥 뉴럴 네트워크 아키텍처를 사용한 실험 결과는 ABLE이 기존 기법보다 높은 안정성과 충실도를 달성함을 보여줍니다.