SHAP-based Explanations are Sensitive to Feature Representation
Created by
Haebom
저자
Hyunseung Hwang, Andrew Bell, Joao Fonseca, Venetia Pliatsika, Julia Stoyanovich, Steven Euijong Whang
개요
본 논문은 지역적 특징 기반 설명(local feature-based explanations)에서 데이터 엔지니어링 기법이 특징 중요도에 미치는 영향을 조사합니다. 나이를 히스토그램으로 표현하거나 인종을 특정 방식으로 인코딩하는 등의 간단한 데이터 엔지니어링 기법이 SHAP과 같은 인기있는 방법으로 결정된 특징 중요도를 조작할 수 있음을 보여줍니다. 특히, 설명의 특징 표현에 대한 민감성은 적대자(adversaries)가 차별과 같은 문제를 은폐하기 위해 악용될 수 있습니다. 이전 연구는 데이터를 편향시키거나 모델을 조작하여 특징 기반 설명기를 공격하는 데 초점을 맞춘 반면, 본 연구는 표준적이고 무해해 보이는 데이터 엔지니어링 기법으로 설명기를 오도할 수 있음을 보여주는 최초의 연구입니다.
시사점, 한계점
•
시사점:
◦
데이터 엔지니어링 기법이 지역적 특징 기반 설명의 결과에 상당한 영향을 미칠 수 있음을 밝힘.
◦
SHAP 등의 설명 가능한 AI(XAI) 기법의 취약성을 보여줌으로써, XAI 결과 해석 시 주의가 필요함을 강조.
◦
데이터 전처리 과정의 중요성과 데이터 엔지니어링 선택이 설명의 신뢰성에 미치는 영향에 대한 인식 제고.
◦
적대적 공격으로부터 XAI 시스템을 보호하기 위한 새로운 방어 전략 개발 필요성 제기.
•
한계점:
◦
특정 데이터 엔지니어링 기법과 설명 방법에 국한된 연구 결과. 다른 데이터 유형이나 설명 방법에 대한 일반화 가능성은 제한적일 수 있음.
◦
실제 적대적 공격 상황을 완벽히 반영하지 못할 수 있음. 실제 공격자의 의도와 전략은 더욱 복잡할 수 있음.