Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Guided Diffusion Models for Adversarial Purification

Created by
  • Haebom

저자

Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao

개요

본 논문은 적대적 예제 정제에 기반한 확산 모델(DM)의 취약성을 해결하기 위해 새로운 적대적 안내 확산 모델(AGDM)을 제안합니다. 기존의 안내 확산 기법들은 정제된 예제와 확산된 예제 간의 거리 측정에 의존하여, 정제 과정에서 적대적 섭동이 유지될 수 있는 문제점을 가지고 있습니다. AGDM은 잠재 표현의 거리를 고려하여 적대적 훈련으로 얻은 보조 신경망을 통해 적대적 섭동을 명시적으로 포함하지 않으면서도 충분한 의미 정보를 담은 새로운 적대적 안내를 제시합니다. CIFAR-10, CIFAR-100, ImageNet 데이터셋에서의 실험 결과, AGDM은 의미 정보를 유지하면서 적대적 섭동을 제거하는 데 효과적이며, 기존 DM 기반 적대적 정제 방법보다 강건성을 크게 향상시킴을 보여줍니다. CIFAR-10에서는 평균적으로 최대 7.30%의 강건 정확도 향상을 달성했습니다.

시사점, 한계점

시사점:
적대적 예제 정제에 대한 확산 모델의 강건성을 향상시키는 새로운 방법 제시.
잠재 표현 공간에서의 거리 측정을 통해 의미 정보 보존과 적대적 섭동 제거를 동시에 달성.
기존 DM 기반 적대적 정제 방법 대비 향상된 강건 정확도를 실험적으로 입증.
다양한 데이터셋(CIFAR-10, CIFAR-100, ImageNet)에서 효과를 검증.
한계점:
보조 신경망 훈련에 대한 자세한 설명 부족. (구체적인 아키텍처, 하이퍼파라미터 등)
제안된 방법의 계산 비용에 대한 분석 부족.
다른 유형의 적대적 공격에 대한 일반화 성능 평가 부족.
실제 적용 환경에서의 성능 평가 부족.
👍