본 논문은 사전 훈련된 다중 모달 표현(예: CLIP)의 구성적 취약성을 다룹니다. CLIP과 같은 모델이 놀라운 능력을 보여주지만, 직관에 반하는 판단을 내리는 구성적 취약성을 가지고 있다는 점에 주목합니다. 이를 평가하기 위해, 대규모 언어 모델(LLM)을 활용하여 다양한 모달리티(이미지, 비디오, 오디오)에서 이러한 취약성을 악용하는 기만적인 텍스트 샘플을 생성하는 벤치마크인 Multimodal Adversarial Compositionality (MAC)를 제시합니다. 샘플 단위 공격 성공률과 그룹 단위 엔트로피 기반 다양성을 통해 평가합니다. 또한, 제거 샘플링 미세 조정과 다양성 증진 필터링을 활용하는 자기 학습 접근 방식을 제안하여 제로샷 방법을 개선합니다. Llama-3.1-8B와 같은 작은 언어 모델을 사용하여 다양한 다중 모달 표현에서 구성적 취약성을 드러내는 데 있어 우수한 성능을 보여줍니다.