Sign In

Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification

Created by
  • Haebom
Category
Empty

저자

Gaozheng Pei, Shaojie Lyu, Gong Chen, Ke Ma, Qianqian Xu, Yingfei Sun, Qingming Huang

개요

기존 확산 기반 정제 방법은 순방향 확산 과정을 통해 특정 수준의 노이즈를 도입하고, 역방향 과정을 통해 깨끗한 예시를 복구하여 적대적 섭동을 방해하는 것을 목표로 합니다. 그러나 이 방법은 근본적인 결함이 있습니다. 모든 픽셀에 걸쳐 균일하게 작동하는 순방향 과정은 적대적 섭동에 대처하려는 시도 중에 정상적인 픽셀을 손상시켜, 대상 모델이 잘못된 예측을 생성하게 합니다. 단순히 낮은 강도의 노이즈에 의존하는 것은 효과적인 방어에 충분하지 않습니다. 이러한 중요한 문제를 해결하기 위해, 본 논문에서는 신경망의 해석성에 기반한 이종 정제 전략을 구현합니다. 본 방법은 대상 모델이 집중하는 특정 픽셀에는 더 높은 강도의 노이즈를 결정적으로 적용하는 반면, 나머지 픽셀에는 낮은 강도의 노이즈만 적용합니다. 이러한 요구 사항은 확산 모델의 샘플링 과정을 재설계하여 다양한 노이즈 수준을 효과적으로 제거할 수 있도록 합니다. 또한, 강력한 적응형 공격에 대한 방법을 평가하기 위해, 제안된 방법은 단일 단계 재샘플링을 통해 시간 비용과 메모리 사용량을 크게 줄입니다. 세 가지 데이터 세트에 대한 광범위한 실험의 경험적 증거는 본 방법이 대부분의 최신 적대적 훈련 및 정제 기술보다 상당한 차이로 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점: 신경망의 해석성을 활용한 이종적 노이즈 적용 전략을 통해 기존 확산 기반 정제 방법의 한계를 극복하고, 적대적 공격에 대한 강력한 방어 성능을 달성함. 단일 단계 재샘플링을 통한 시간 및 메모리 효율 향상. 다양한 데이터셋에서 기존 방법들을 상당한 차이로 능가하는 성능을 입증.
한계점: 제안된 방법의 효과가 특정 유형의 적대적 공격에만 국한될 가능성. 신경망의 해석성에 의존하므로, 해석성이 낮은 모델에서는 성능이 저하될 수 있음. 새로운 적응형 공격에 대한 일반화 성능에 대한 추가 연구 필요.
👍