본 논문은 제한된 훈련 데이터와 복잡한 triplet annotation 과정으로 어려움을 겪는 합성 이미지 검색(CIR) 문제를 해결하기 위해, 훈련 triplet을 합성하여 훈련 자원을 증강하는 방법을 제안한다. 대규모 다중 모달 모델을 활용하여 수정 텍스트 생성기를 훈련하고, 사전 훈련 및 미세 조정 단계 모두에서 CIR 학습을 확장한다. 사전 훈련 중에는 훈련된 생성기를 사용하여 이미지 쌍을 조건으로 수정 텍스트 기반 합성 트리플릿(MTST)을 직접 생성한다. 미세 조정 중에는 먼저 역 수정 텍스트를 합성하여 타겟 이미지를 참조 이미지에 다시 연결하고, 두 단계 정렬 전략을 통해 다중 모달 쌍과 타겟 이미지 간의 의미론적 차이를 점진적으로 줄인다. 원본 트리플릿과 역 트리플릿을 순환적으로 활용하여 암시적 프로토타입을 학습한 후, 암시적 프로토타입 특징과 수정 텍스트를 결합하여 타겟 이미지와의 정확한 정렬을 용이하게 한다. CIRR 및 FashionIQ 벤치마크에서 경쟁력 있는 재현율을 달성함을 광범위한 실험을 통해 검증한다.