본 논문은 복합 이미지 검색(CIR)에서 시각적 정보와 텍스트적 정보의 불균형적인 융합으로 인한 사용자 의도 오류 문제를 해결하기 위해 TMCIR 프레임워크를 제안합니다. TMCIR은 의도를 반영하는 가상 이미지를 생성하여 CLIP 인코더를 미세 조정하고, 적응적 토큰 융합을 통해 시각 및 텍스트 표현의 균형을 맞추는 두 가지 핵심 혁신을 통해 이 문제를 해결합니다. Fashion-IQ 및 CIRR 데이터셋 실험 결과, TMCIR은 기존 방법보다 뛰어난 성능을 보이며, 특히 미묘한 사용자 의도 파악에 효과적임을 보여줍니다.