Sign In

CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification

Created by
  • Haebom
Category
Empty

저자

Mingkun Zhang, Keping Bi, Wei Chen, Jiafeng Guo, Xueqi Cheng

개요

본 논문은 CLIP을 기반으로 적대적 공격에 강인한 제로샷 이미지 분류기를 구축하는 것을 목표로 한다. 특정 공격 유형에 대한 적대적 훈련이 필요 없고 예상치 못한 공격에도 대처할 수 있는 정제(purification) 기법을 사용한다. 적대적 샘플의 잡음 제거 과정과 양성 샘플에 대한 섭동 추가 과정의 결합 분포 간의 KL divergence를 이중 방향 확률 미분 방정식(SDEs)을 통해 정제 위험으로 공식화한다. CLIP의 다중 모드 잠재 공간에서 정제를 수행하는 두 가지 변형인 CLIPure-Diff와 CLIPure-Cos를 제안한다. CLIPure-Diff는 DaLLE-2의 DiffusionPrior 모듈을 사용하여 이미지의 잠재 벡터의 가능도를 모델링하고, CLIPure-Cos는 이미지와 "a photo of a"의 임베딩 간의 코사인 유사도를 사용하여 가능도를 모델링한다. CIFAR-10, ImageNet 및 기존 CLIP 기반 방어 방법들이 사용한 13개의 데이터셋에 대한 실험 결과, CLIPure는 기존 최고 성능보다 상당한 성능 향상을 보였다 (예: CIFAR-10에서 71.7%에서 91.1%로, ImageNet에서 59.6%에서 72.6%로 향상).

시사점, 한계점

시사점:
다중 모드 잠재 공간에서의 최초의 정제 방법 제시 (CLIPure).
생성 모델에 의존하지 않는 최초의 정제 방법 제시 (CLIPure-Cos).
기존 최고 성능을 능가하는 적대적 공격에 대한 강인성 향상을 실험적으로 증명.
제공된 코드를 통해 재현성 확보 가능.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음.
특정 유형의 적대적 공격에 대해서는 여전히 취약할 가능성 존재.
계산 비용에 대한 분석이 부족.
👍