본 논문은 텍스트 기반 이미지 검색(TIR)과 참조 표현 분할(RES)을 통합한 새로운 과제인 Mask-aware TIR (MaTIR)을 제시합니다. 기존 TIR은 전체 이미지 캡션에 의존하여 해석성이 부족하고, RES는 대규모 이미지 집합에 적용 시 계산 비용이 많다는 한계가 있습니다. MaTIR은 효율적인 이미지 검색과 정확한 객체 분할을 동시에 요구합니다. 이를 위해 본 논문에서는 두 단계 프레임워크를 제안합니다. 1단계에서는 분할 인식 이미지 검색을 수행하고, 2단계에서는 다중 모드 대규모 언어 모델(MLLM)을 사용하여 검색 순위를 재정렬하고 객체를 지정합니다. SAM 2를 이용하여 객체 마스크를 생성하고, Alpha-CLIP을 이용하여 영역 수준 임베딩을 오프라인으로 추출하여 효율적이고 확장 가능한 온라인 검색을 가능하게 합니다. MLLM은 검색 순위를 개선하고 바운딩 박스를 생성하며, 이를 분할 마스크와 일치시킵니다. COCO와 D$^3$ 데이터셋을 사용하여 평가한 결과, 기존 방법보다 검색 정확도와 분할 품질이 크게 향상됨을 보였습니다.