Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval

작성자

Haebom

카테고리

Empty

저자

Li-Cheng Shen, Jih-Kang Hsieh, Wei-Hua Li, Chu-Song Chen

개요

본 논문은 텍스트 기반 이미지 검색(TIR)과 참조 표현 분할(RES)을 통합한 새로운 과제인 Mask-aware TIR (MaTIR)을 제시합니다. 기존 TIR은 전체 이미지 캡션에 의존하여 해석성이 부족하고, RES는 대규모 이미지 집합에 적용 시 계산 비용이 많다는 한계가 있습니다. MaTIR은 효율적인 이미지 검색과 정확한 객체 분할을 동시에 요구합니다. 이를 위해 본 논문에서는 두 단계 프레임워크를 제안합니다. 1단계에서는 분할 인식 이미지 검색을 수행하고, 2단계에서는 다중 모드 대규모 언어 모델(MLLM)을 사용하여 검색 순위를 재정렬하고 객체를 지정합니다. SAM 2를 이용하여 객체 마스크를 생성하고, Alpha-CLIP을 이용하여 영역 수준 임베딩을 오프라인으로 추출하여 효율적이고 확장 가능한 온라인 검색을 가능하게 합니다. MLLM은 검색 순위를 개선하고 바운딩 박스를 생성하며, 이를 분할 마스크와 일치시킵니다. COCO와 D$^3$ 데이터셋을 사용하여 평가한 결과, 기존 방법보다 검색 정확도와 분할 품질이 크게 향상됨을 보였습니다.

시사점, 한계점

•

시사점:

◦

TIR과 RES를 통합한 새로운 과제인 MaTIR 제시 및 효과적인 해결 방안 제시.

◦

SAM 2와 Alpha-CLIP을 활용한 효율적이고 확장 가능한 온라인 이미지 검색 구현.

◦

MLLM을 이용한 검색 순위 개선 및 정확한 객체 지정.

◦

COCO와 D$^3$ 데이터셋에서 기존 방법 대비 향상된 성능 검증.

•

한계점:

◦

제안된 방법의 성능이 특정 데이터셋에 국한될 가능성.

◦

MLLM의 계산 비용이 높을 수 있음.

◦

다양한 유형의 이미지와 텍스트 쿼리에 대한 일반화 성능 검증 필요.

◦

SAM 2와 Alpha-CLIP에 대한 의존성.

PDF 보기

Made with Slashpage