본 논문은 실제 세계 적용 가치가 제한적인 기존 다중 모달 검색 과제의 한계를 극복하고자, 텍스트로 설명된 시나리오와 일치하면서 질의 이미지와 동일한 인스턴스를 포함하는 이미지를 검색하는 새로운 과제인 인스턴스 기반 다중 모달 이미지 검색(IDMR)을 제안합니다. IDMR은 기존의 전역 이미지 유사성이나 카테고리 수준 매칭에 초점을 맞춘 검색 과제와 달리 다양한 맥락에서 미세한 인스턴스 수준의 일관성을 요구합니다. 실제 객체 추적 및 1인칭 비디오 데이터를 사용하여 IDMR-bench를 개발하고, 훈련 데이터 부족 문제를 해결하기 위해 표준 탐지 데이터셋에서 객체를 잘라내어 557K개의 훈련 샘플을 생성하는 도메인 간 합성 방법을 제안합니다. 1.2M개의 샘플로 훈련된 다중 모달 대규모 언어 모델(MLLM) 기반 검색 모델은 기존 벤치마크와 제로샷 IDMR-bench 모두에서 최첨단 접근 방식을 능가합니다. 실험 결과는 기존 모델의 인스턴스 인식 검색의 한계를 보여주고 고급 검색 애플리케이션에 대한 MLLM의 잠재력을 강조합니다. 훈련 데이터셋, 코드 및 모델은 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
실제 세계 적용 가능성이 높은 새로운 다중 모달 검색 과제인 IDMR 제시.
◦
인스턴스 수준의 미세한 일관성을 요구하는 검색 과제에 대한 새로운 벤치마크(IDMR-bench) 제공.
◦
데이터 부족 문제 해결을 위한 효과적인 크로스 도메인 데이터 합성 방법 제시.
◦
MLLM 기반 모델을 활용하여 기존 모델의 성능을 능가하는 결과 달성.
◦
다양한 크기의 훈련 데이터셋, 코드 및 모델을 공개하여 연구의 재현성 및 확장성 확보.
•
한계점:
◦
IDMR-bench의 데이터셋 크기 및 다양성에 대한 추가적인 연구 필요.
◦
제안된 크로스 도메인 합성 방법의 일반화 성능에 대한 추가적인 검증 필요.
◦
특정 도메인에 편향된 훈련 데이터가 모델의 일반화 성능에 미치는 영향에 대한 추가적인 분석 필요.