Sign In

Robust Diffusion Models for Adversarial Purification

Created by
  • Haebom
Category
Empty

저자

Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao

개요

적대적 정제(AP) 기반 확산 모델(DM)은 적대적 훈련(AT)에 대한 가장 강력한 대안으로 나타났지만, 사전 훈련된 확산 모델 자체도 적대적 공격에 취약하다는 점을 간과합니다. 또한, 확산 과정은 의미 정보를 쉽게 파괴하고 역 과정 후 원본 입력 이미지와 완전히 다른 고품질 이미지를 생성하여 표준 정확도를 저하시킵니다. 이러한 문제를 해결하기 위해 사전 훈련된 확산 모델을 재훈련하거나 미세 조정하는 적대적 훈련 전략을 활용하는 것이 자연스러운 아이디어이지만, 계산상으로는 매우 비효율적입니다. 본 논문에서는 사전 훈련된 DM에 의존하지 않고 DM의 재훈련이나 미세 조정을 피하는, 적대적 안내를 통한 새로운 강력한 역 과정을 제안합니다. 이 강력한 안내는 더 많은 의미 콘텐츠를 유지하는 정제된 예제를 생성할 뿐만 아니라 DM의 정확도-강건성 트레이드오프를 최초로 완화하여 DM 기반 AP에 새로운 공격에 대한 효율적인 적응 능력을 제공합니다. CIFAR-10, CIFAR-100 및 ImageNet에 대한 광범위한 실험을 통해 제안된 방법이 최첨단 결과를 달성하고 다양한 공격에 대해 일반화됨을 보여줍니다.

시사점, 한계점

시사점:
사전 훈련된 확산 모델의 재훈련 없이 적대적 공격에 대한 강건성을 향상시키는 새로운 방법 제시.
적대적 안내를 통한 강력한 역 과정으로 의미 정보 손실 최소화 및 정확도-강건성 트레이드오프 완화.
다양한 적대적 공격에 대한 일반화 성능을 보이는 최첨단 성능 달성.
DM 기반 AP에 새로운 공격에 대한 효율적인 적응 능력 부여.
한계점:
제안된 방법의 계산 비용에 대한 자세한 분석 부족.
다양한 유형의 적대적 공격에 대한 일반화 성능에 대한 추가적인 연구 필요.
실제 응용 분야에서의 효과성 검증 필요.
👍