기존 확산 기반 정제 방법은 순방향 확산 과정을 통해 특정 수준의 노이즈를 도입하고 역방향 과정을 통해 깨끗한 예시를 복구하여 적대적 섭동을 방해하려고 시도합니다. 그러나 이러한 접근 방식에는 근본적인 결함이 있습니다. 모든 픽셀에 걸쳐 균일하게 작동하는 순방향 과정은 적대적 섭동을 해결하려는 시도 중에 정상적인 픽셀을 손상시켜 대상 모델이 잘못된 예측을 생성하게 합니다. 낮은 강도의 노이즈에만 의존하는 것은 효과적인 방어에 불충분합니다. 이러한 중요한 문제를 해결하기 위해, 본 논문에서는 신경망의 해석성을 기반으로 하는 이종 정제 전략을 구현합니다. 본 방법은 대상 모델이 집중하는 특정 픽셀에는 더 높은 강도의 노이즈를 결정적으로 적용하고, 나머지 픽셀에는 낮은 강도의 노이즈만 적용합니다. 이러한 요구 사항은 확산 모델의 샘플링 과정을 재설계하여 다양한 노이즈 수준을 효과적으로 제거할 수 있도록 합니다. 또한, 강력한 적응형 공격에 대한 방법을 평가하기 위해, 제안된 방법은 단일 단계 재샘플링을 통해 시간 비용과 메모리 사용량을 크게 줄입니다. 세 가지 데이터 세트에 대한 광범위한 실험의 경험적 증거는 본 방법이 대부분의 현재 적대적 훈련 및 정제 기술보다 상당한 차이로 성능이 우수함을 보여줍니다.