본 논문은 CLIP을 기반으로 적대적 공격에 강인한 제로샷 이미지 분류기를 구축하는 것을 목표로 한다. 특정 공격 유형에 대한 적대적 훈련이 필요 없고 예상치 못한 공격에도 대처할 수 있는 정제(purification) 기법을 사용한다. 적대적 샘플의 잡음 제거 과정과 양성 샘플에 대한 섭동 추가 과정의 결합 분포 간의 KL divergence를 이중 방향 확률 미분 방정식(SDEs)을 통해 정제 위험으로 공식화한다. CLIP의 다중 모드 잠재 공간에서 정제를 수행하는 두 가지 변형인 CLIPure-Diff와 CLIPure-Cos를 제안한다. CLIPure-Diff는 DaLLE-2의 DiffusionPrior 모듈을 사용하여 이미지의 잠재 벡터의 가능도를 모델링하고, CLIPure-Cos는 이미지와 "a photo of a"의 임베딩 간의 코사인 유사도를 사용하여 가능도를 모델링한다. CIFAR-10, ImageNet 및 기존 CLIP 기반 방어 방법들이 사용한 13개의 데이터셋에 대한 실험 결과, CLIPure는 기존 최고 성능보다 상당한 성능 향상을 보였다 (예: CIFAR-10에서 71.7%에서 91.1%로, ImageNet에서 59.6%에서 72.6%로 향상).