CLIP 모델의 다양한 downstream task 적용 및 대규모 vision-language model (VLM) 통합 증가에 따라, CLIP 모델의 적대적 perturbation 취약성이 중요한 문제로 부각되었습니다. 본 연구는 다양한 CLIP encoder와 downstream VLM을 여러 샘플, task, domain에 걸쳐 속일 수 있는 Universal Adversarial Perturbation (UAP)을 생성하는 새로운 공격 기법인 X-Transfer를 제시합니다. X-Transfer는 super transferability라 불리는 특징을 가지는데, 이는 단일 perturbation이 cross-data, cross-domain, cross-model, cross-task 적대적 전이성을 동시에 달성하는 것을 의미합니다. 이는 본 연구의 핵심 혁신인 surrogate scaling을 통해 달성됩니다. 기존의 계산적으로 비용이 많이 드는 고정된 surrogate 모델에 의존하는 방법과 달리, X-Transfer는 큰 search space에서 적합한 surrogate의 작은 subset을 동적으로 선택하는 효율적인 surrogate scaling 전략을 사용합니다. 광범위한 평가를 통해 X-Transfer가 기존 최첨단 UAP 방법보다 성능이 훨씬 뛰어나며, CLIP 모델에 대한 적대적 전이성에 대한 새로운 기준을 제시함을 보여줍니다. 코드는 GitHub 저장소에서 공개적으로 이용 가능합니다.