Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering
作者
Haebom
カテゴリー
Empty
저자
Nirmalendu Prakash, Narmeen Fatimah Oozeer, Xin Su, Phillip Howard, Shaan Shah, Zoe Wanying He, Shuang Wu, Shivam Raval, Roy Ka-Wei Lee, Meenakshi Khosla, Amir Abdullah
💡 개요
본 논문은 기존 CLIP 기반 검색이 전역적 유사성에만 집중하여 발생하는 지역적 기하학적 불일치 문제를 해결하고자 합니다. 제안된 방법은 헝가리안 매칭을 활용한 이웃 수준 재정렬과 쿼리 조건부 지역적 조향을 통해 구조적 일관성을 보상하고 검색 결과의 질을 높입니다. 이를 통해 속성 바인딩 및 구성 검색 작업에서 검색 성능을 향상시키고, 추가적인 재학습 없이 추론 시점에 지역적 구조를 활용할 수 있음을 보여줍니다.
🔑 시사점 및 한계
•
CLIP 검색의 성능 저하 원인이 전역적 유사성뿐만 아니라 지역적 기하학적 불일치에 있음을 규명합니다.
•
헝가리안 매칭을 통한 이웃 수준 재정렬과 쿼리 조건부 지역적 조향이라는 두 가지 핵심 기법을 제안하여 검색의 질과 제어력을 향상시킵니다.
•
추가적인 재학습 없이 추론 시점에 지역적 구조를 활용하여 검색 성능을 개선할 수 있다는 실용적인 가능성을 제시합니다.
•
제안된 방법론의 실제 적용 시 계산 복잡성 및 다양한 데이터셋에서의 일반화 성능에 대한 추가적인 검증이 필요할 수 있습니다.