# Explanations as Bias Detectors: A Critical Study of Local Post-hoc XAI Methods for Fairness Exploration

### 저자

Vasiliki Papanikou, Danae Pla Karidi, Evaggelia Pitoura, Emmanouil Panagiotou, Eirini Ntoutsi

### 개요

본 논문은 인공지능(AI)의 공정성과 투명성에 대한 우려, 특히 취약 계층에 대한 영향에 초점을 맞추고, 설명 가능성 기법을 활용하여 불공정성을 탐지하고 해석하는 방법을 탐구한다.  연구진은 지역적 사후 설명 기법을 통합한 파이프라인을 제안하며, 설명을 편향 탐지기로 사용할 때 발생하는 중요한 문제점들(분배적 공정성과 절차적 공정성의 관계, 보호 속성 제거의 영향, 다양한 설명 기법에 대한 결과의 일관성 및 품질, 그룹 공정성 평가에 대한 지역적 설명의 다양한 집계 전략의 영향, 편향 탐지기로서 설명의 전반적인 신뢰성 등)을 확인하고 해결한다.  실험 결과는 공정성에 사용되는 설명 방법의 잠재력을 보여주는 동시에 앞서 언급된 중요한 측면들을 신중하게 고려해야 할 필요성을 강조한다.

### 시사점, 한계점

- **시사점:**

    - 설명 가능성 기법을 활용하여 AI 시스템의 불공정성을 탐지하고 해석하는 새로운 파이프라인 제시

    - 지역적 사후 설명 기법의 공정성 평가에 대한 효용성을 실증적으로 보여줌

    - 공정성 평가 시 고려해야 할 중요한 요소들(분배적/절차적 공정성, 보호 속성 제거의 영향, 설명 기법의 일관성, 집계 전략 등)을 제시

- **한계점:**

    - 제안된 파이프라인의 일반화 가능성 및 다양한 AI 모델에 대한 적용 가능성에 대한 추가 연구 필요

    - 사용된 설명 기법 및 집계 전략의 선택이 결과에 미치는 영향에 대한 심층적인 분석 필요

    - 설명의 신뢰성 평가에 대한 더욱 엄격한 기준 마련 필요

[PDF 보기](https://arxiv.org/pdf/2505.00802)

![https://i.imgur.com/qOLBOnv.jpeg](https://i.imgur.com/qOLBOnv.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
