Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Brittleness of CLIP Text Encoders

Created by
  • Haebom
Category
Empty

저자

Allie Tran, Luca Rossetto

개요

CLIP과 같은 멀티모달 공동 임베딩 모델은 이미지와 텍스트를 공유 표현 공간에 정렬하여 제로샷 분류 및 멀티미디어 정보 검색 분야에서 최근 발전을 이루었습니다. 그러나 이러한 대비 정렬 방식으로 훈련된 모델은 작은 입력 교란에 대한 안정성이 부족할 수 있습니다. 특히 수동으로 표현된 쿼리를 처리할 때 쿼리의 작은 변화가 가장 일치하는 결과의 순위에 큰 차이를 야기할 수 있습니다. 이 논문에서는 멀티미디어 정보 검색 시나리오에서 여러 종류의 비의미적 쿼리 교란의 영향을 체계적으로 분석합니다. TRECVID Ad-Hoc Video Search 쿼리 및 V3C1 비디오 컬렉션을 사용하여 다양한 CLIP 변형에 걸쳐 어휘, 구문 및 의미적 교란을 평가합니다.

시사점, 한계점

구문 및 의미적 교란이 가장 큰 불안정성을 유발합니다.
취약성은 문장 부호 및 대소문자와 같은 사소한 표면 편집에 집중됩니다.
벤치마크 정확도를 넘어 비전-언어 모델 평가에 있어 견고성이 중요한 요소임을 강조합니다.
👍