본 논문은 온라인 콘텐츠 내 이미지 증가에 따라 중요성이 커진 언어 가이드 이미지 검색(LGIR) 문제를 다룹니다. 기존의 대규모 다중 모달 모델(LMM) 기반 접근 방식은 각 LGIR 하위 작업마다 별도의 시스템을 필요로 하여 시스템 복잡성과 유지보수 비용이 증가하고 정확도가 떨어지는 문제점이 있습니다. 이를 해결하기 위해 본 논문은 훈련이 필요 없는 3단계 프레임워크인 ImageScope를 제안합니다. ImageScope는 언어의 구성적 특성과 LMM의 추론 능력을 활용하여 다양한 LGIR 작업을 일반적인 텍스트-이미지 검색 과정으로 통합합니다. 구체적으로, 첫 번째 단계에서는 사고 연쇄(CoT) 추론을 사용하여 다양한 의미적 세분화 수준에서 검색 의도를 합성하여 강건성을 높이고, 두 번째 및 세 번째 단계에서는 로컬 및 글로벌 수준에서 결과를 검증합니다. 여섯 개의 LGIR 데이터셋에서의 실험 결과, ImageScope는 기존 방법보다 성능이 우수함을 보여줍니다.