Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ABLE: Using Adversarial Pairs to Construct Local Models for Explaining Model Predictions

Created by
  • Haebom
Category
Empty

저자

Krishna Khadka, Sunny Shree, Pujan Budhathoki, Yu Lei, Raghu Kacker, D. Richard Kuhn

개요

머신 러닝 모델의 투명성 부족 문제를 해결하기 위해, 본 논문은 LIME과 같은 기존 로컬 설명 기법의 한계점을 극복하는 새로운 방법인 Adversarially Bracketed Local Explanation (ABLE)을 제안합니다. ABLE은 테스트 인스턴스 주변에 가우시안 노이즈를 추가하여 생성된 이웃 점들에 대해, 적대적 공격을 통해 다른 레이블을 갖는 점과 동일한 레이블을 갖는 점을 생성하여 적대적 쌍을 만듭니다. 이러한 적대적 쌍을 이용하여 로컬 의사 결정 경계를 근사하는 선형 모델을 학습시킵니다. UCI 벤치마크 데이터셋 및 3가지 딥 뉴럴 네트워크 아키텍처를 사용한 실험 결과는 ABLE이 기존 기법보다 높은 안정성과 충실도를 달성함을 보여줍니다.

시사점, 한계점

시사점:
복잡한 머신 러닝 모델의 로컬 설명을 위한 안정적이고 충실도 높은 방법론 제시.
적대적 공격을 활용하여 로컬 의사 결정 경계를 효과적으로 근사.
기존 로컬 설명 기법의 성능 한계를 극복.
한계점:
적대적 공격을 사용하는 방법에 따른 계산 비용 증가 가능성.
선형 모델의 단순성으로 인해 복잡한 의사 결정 경계를 완전히 포착하지 못할 수 있음.
실험 데이터셋의 제한적인 범위로 인해 일반화 성능에 대한 추가적인 검증 필요.
👍