CLIP과 같은 멀티모달 공동 임베딩 모델은 이미지와 텍스트를 공유 표현 공간에 정렬하여 제로샷 분류 및 멀티미디어 정보 검색 분야에서 최근 발전을 이루었습니다. 그러나 이러한 대비 정렬 방식으로 훈련된 모델은 작은 입력 교란에 대한 안정성이 부족할 수 있습니다. 특히 수동으로 표현된 쿼리를 처리할 때 쿼리의 작은 변화가 가장 일치하는 결과의 순위에 큰 차이를 야기할 수 있습니다. 이 논문에서는 멀티미디어 정보 검색 시나리오에서 여러 종류의 비의미적 쿼리 교란의 영향을 체계적으로 분석합니다. TRECVID Ad-Hoc Video Search 쿼리 및 V3C1 비디오 컬렉션을 사용하여 다양한 CLIP 변형에 걸쳐 어휘, 구문 및 의미적 교란을 평가합니다.