본 논문은 인간의 효과적이고 효율적인 이미지 획득 방법을 재고하여, 텍스트-이미지 생성과 검색을 통합하는 단일 대규모 다중 모드 모델(LMM) 기반 프레임워크를 제안합니다. 기존의 텍스트-이미지 검색의 한계(데이터베이스의 제한된 창의성)와 텍스트-이미지 생성의 한계(지식 집약적 이미지 합성의 어려움)를 극복하기 위해, LMM의 내재적 판별 능력을 활용한 효율적인 생성적 검색 방법을 제시하고, 생성 및 검색된 이미지 중 최적의 이미지를 선택하는 자율적 의사 결정 메커니즘을 도입합니다. 또한, 창의적인 영역과 지식 집약적인 영역을 모두 포함하는 TIGeR-Bench라는 새로운 벤치마크를 구축하여 통합된 텍스트-이미지 생성 및 검색 평가를 표준화합니다. Flickr30K와 MS-COCO를 포함한 다양한 실험 결과를 통해 제안된 프레임워크의 우수성을 입증합니다.