본 논문은 확산 모델이 경험적으로 적대적 강건성을 향상시키는 이유에 대한 메커니즘을 체계적으로 조사합니다. 기존의 직관적인 설명과 달리, 확산 모델이 깨끗한 샘플과의 $\ell_p$ 거리를 감소시키는 것이 아니라 증가시킨다는 점을 발견했습니다. 또한, 정제된 이미지가 확산 모델의 내부 랜덤성에 크게 영향을 받으며, 각 랜덤성 설정 내에서 압축 효과가 발생함을 확인했습니다. 고정된 랜덤성 하에서 강건성을 평가한 결과, CIFAR-10에서 향상된 강건성이 약 24%로 감소했으며, 이는 기존 보고서(약 70%)보다 상당히 낮은 수치입니다. 나머지 강건성 향상은 모델의 입력 공간 압축 능력과 강한 상관관계를 보이며, 압축률이 기울기 기반 분석 없이도 강건성 지표로 사용될 수 있음을 보여줍니다. 결론적으로, 본 연구는 확산 기반 정제의 메커니즘에 대한 새로운 통찰력을 제공하고, 보다 효과적이고 원칙적인 적대적 정제 시스템을 개발하기 위한 지침을 제시합니다.