본 논문은 합성 이미지 검색(CIR)에서의 데이터셋 한계를 해결하기 위해, 비전-언어 모델을 활용한 고품질 합성 주석 생성 파이프라인인 good4cir을 제안한다. good4cir은 질의 이미지에서 세밀한 객체 설명을 추출하고, 대상 이미지에 대한 비교 가능한 설명을 생성하며, 이미지 간 의미있는 변환을 포착하는 텍스트 지시어를 합성하는 세 단계로 구성된다. 이를 통해 환각을 줄이고, 수정 다양성을 높이며, 객체 수준의 일관성을 보장하여 기존 데이터셋을 개선하고 다양한 도메인에서 새로운 데이터셋을 생성한다. 결과적으로 good4cir로 생성된 데이터셋으로 훈련된 CIR 모델의 검색 정확도가 향상됨을 보여주며, 데이터셋 구성 프레임워크를 공개하여 CIR 및 다중 모드 검색 연구를 지원한다.