Text-to-Image Person Retrieval (TIPR)의 한계를 극복하기 위해 제안된 Generation-Enhanced Alignment (GEA) 방법론에 대한 내용 요약. 텍스트 쿼리의 부정확성과 데이터셋의 한계로 인한 문제, 텍스트와 이미지 간의 본질적인 모달리티 격차를 해결하고자 함. GEA는 Text-Guided Token Enhancement (TGTE)와 Generative Intermediate Fusion (GIF) 두 가지 모듈을 포함하며, 확산 모델로 생성된 이미지를 중간 표현으로 활용하여 텍스트 의미를 풍부하게 하고 cross-modal alignment를 개선. 세 개의 TIPR 데이터셋(CUHK-PEDES, RSTPReid, ICFG-PEDES)에 대한 실험을 통해 방법론의 효과를 입증함.