Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

eXIAA: eXplainable Injections for Adversarial Attack

Created by
  • Haebom
Category
Empty

저자

Leonardo Pesce, Jiawen Wei, Gianmarco Mengaldo

개요

본 논문은 이미지 도메인에서 사후 설명 가능한 인공지능(XAI)에 대한 새로운 블랙박스 모델 무관 공격을 제시합니다. 이 공격은 모델의 예측 및 설명에만 접근하여, 예측 클래스를 유지하면서 인간의 눈으로 감지할 수 없도록 설명을 수정하는 것을 목표로 합니다. 기존 방법과 달리 모델 또는 가중치에 접근할 필요가 없으며, 단일 단계로 설명을 크게 변경합니다. 이 공격은 현재 설명 방법의 취약점을 노출하며 안전이 중요한 응용 프로그램에서의 신뢰성에 대한 우려를 제기합니다. 사전 훈련된 ResNet-18 및 ViT-B16에 대한 saliency maps, integrated gradients, DeepLIFT SHAP과 같은 XAI 방법으로 생성된 설명을 기반으로 공격을 생성하고, 예측 확률을 변경하지 않으면서 설명을 크게 변경할 수 있음을 입증합니다.

시사점, 한계점

시사점:
XAI 방법의 취약점을 드러내어 안전이 중요한 응용 분야에서의 신뢰성에 대한 우려를 제기합니다.
모델에 대한 접근 없이 단일 단계로 설명을 조작하는 효과적인 공격 방법을 제시합니다.
사전 훈련된 ResNet-18 및 ViT-B16 모델과 다양한 XAI 방법에 대한 공격의 효과를 입증합니다.
한계점:
공격의 일반화 가능성 및 다른 모델과 데이터셋에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
공격으로 인한 설명 변경의 의미와 해석에 대한 추가 분석이 필요합니다.
공격을 방어하기 위한 새로운 방법 및 XAI 방법의 개선에 대한 연구가 필요합니다.
👍