본 논문은 기존의 이미지 기반 또는 텍스트 기반 단일 모드 사람 검색의 한계를 극복하기 위해, 이미지와 텍스트를 결합한 새로운 복합 사람 검색(CPR) 과제를 제시합니다. CPR 과제를 위한 대규모 데이터셋 부재 문제를 해결하고자, 텍스트 쿼드러플 생성과 미세 조정된 생성 모델을 이용한 이미지 합성으로 구성된 확장 가능한 자동 데이터 합성 파이프라인을 제안합니다. 이를 통해 115만 개의 고품질 완전 합성 트리플렛으로 구성된 SynCPR 데이터셋을 생성하고, 복합 질의 표현 개선을 위해 미세 조정 동적 정렬 및 마스크 특징 추론을 활용한 새로운 FAFA(Fine-grained Adaptive Feature Alignment) 프레임워크를 제안합니다. Image-Text Composed Person Retrieval (ITCPR) 테스트 세트에 대한 수동 주석 작업을 통해 객관적인 평가를 수행하고, 다양한 실험을 통해 SynCPR 데이터셋의 효과와 FAFA 프레임워크의 우수성을 입증합니다. 소스 코드와 데이터는 깃허브에 공개됩니다.