Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning

Created by
  • Haebom
Category
Empty

저자

Pengfei Luo, Jingbo Zhou, Tong Xu, Yuan Xia, Linli Xu, Enhong Chen

개요

본 논문은 온라인 콘텐츠 내 이미지 증가에 따라 중요성이 커진 언어 가이드 이미지 검색(LGIR) 문제를 다룹니다. 기존의 대규모 다중 모달 모델(LMM) 기반 접근 방식은 각 LGIR 하위 작업마다 별도의 시스템을 필요로 하여 시스템 복잡성과 유지보수 비용이 증가하고 정확도가 떨어지는 문제점이 있습니다. 이를 해결하기 위해 본 논문은 훈련이 필요 없는 3단계 프레임워크인 ImageScope를 제안합니다. ImageScope는 언어의 구성적 특성과 LMM의 추론 능력을 활용하여 다양한 LGIR 작업을 일반적인 텍스트-이미지 검색 과정으로 통합합니다. 구체적으로, 첫 번째 단계에서는 사고 연쇄(CoT) 추론을 사용하여 다양한 의미적 세분화 수준에서 검색 의도를 합성하여 강건성을 높이고, 두 번째 및 세 번째 단계에서는 로컬 및 글로벌 수준에서 결과를 검증합니다. 여섯 개의 LGIR 데이터셋에서의 실험 결과, ImageScope는 기존 방법보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
다양한 LGIR 하위 작업들을 통합하는 훈련이 필요 없는 프레임워크 ImageScope 제안
사고 연쇄(CoT) 추론과 다단계 검증을 통해 LGIR의 정확도와 강건성 향상
LMM의 추론 능력을 활용하여 시스템 복잡성과 유지보수 비용 감소
다양한 LGIR 데이터셋에서의 실험을 통해 성능 우수성 검증
한계점:
제시된 프레임워크의 일반화 성능에 대한 추가적인 연구 필요
특정 유형의 이미지나 언어에 대한 편향성 존재 가능성
실제 서비스 환경에서의 확장성 및 효율성에 대한 추가적인 검증 필요
👍