본 논문은 현실 세계에서 흔히 발생하는 상반된 멀티모달 입력을 다루기 위해, 기존 벤치마크가 놓치고 있는 교차 모달 모순 감지 능력을 평가하는 새로운 벤치마크 CLASH를 소개한다. CLASH는 COCO 이미지와 객체 수준 또는 속성 수준의 모순을 포함하는 상반된 캡션을 결합하여 구성된다. 샘플은 객관식 및 개방형 형식으로 평가되는 타겟 질문을 포함하며, 자동 품질 검사를 거친 대규모 미세 조정 세트와 소규모의 사람이 검증한 진단 세트를 제공한다. 최첨단 모델 분석 결과, 교차 모달 충돌을 인식하는 데 심각한 한계가 있으며, 체계적인 모달리티 편향과 범주별 약점을 드러냈다. CLASH에 대한 타겟 미세 조정은 충돌 감지 능력을 크게 향상시켰다.