본 논문은 시각적 쿼리(이미지-이미지, I2I) 또는 텍스트 설명(텍스트-이미지, T2I)을 기반으로 대상 보행자 이미지를 검색하는 것을 목표로 하는 Person re-identification(ReID)을 연구한다. I2I는 차별적인 신원 학습에 중점을 두고, T2I는 정확한 교차 모달 의미 정렬을 요구한다. 기존 방법론들이 두 과제를 별도로 처리하여 표현의 얽힘과 성능 저하를 초래하는 문제를 해결하기 위해, 본 논문은 Hierarchical Prompt Learning (HPL)이라는 통합 프레임워크를 제안한다. HPL은 Task-Routed Transformer와 계층적 프롬프트 생성 방식을 활용하여 I2I와 T2I를 공동으로 최적화한다. 또한 Cross-Modal Prompt Regularization 전략을 통해 프롬프트 토큰 공간에서 의미 정렬을 강화한다. 실험 결과, 여러 ReID 벤치마크에서 SOTA 성능을 달성했다.