본 논문은 Contrastive Language-Image Pre-training (CLIP) 모델의 적대적 공격 취약성을 다룹니다. CLIP 모델과 이를 기반으로 한 다양한 비전-언어 모델(VLMs)에 대한 새로운 적대적 공격 방법인 X-Transfer를 제안합니다. X-Transfer는 다양한 CLIP 인코더와 downstream VLMs에 대해, 샘플, 작업 및 도메인에 걸쳐 효과적인 범용 적대적 섭동(UAP)을 생성합니다. X-Transfer의 핵심 혁신인 surrogate scaling을 통해, 대규모 검색 공간에서 적합한 surrogate 모델의 작은 부분집합을 동적으로 선택하여 효율적인 UAP 생성을 가능하게 합니다. 이를 통해 기존 방법들을 능가하는 '초전이성(super transferability)'을 달성하여, 데이터, 도메인, 모델, 작업 간의 적대적 전이성을 동시에 확보합니다. 실험 결과, X-Transfer는 기존 최첨단 UAP 방법들을 상당히 능가하며 CLIP 모델에 대한 적대적 전이성의 새로운 기준을 제시합니다. 코드는 GitHub에 공개되어 있습니다.