본 논문은 비디오-텍스트 검색에서 개인적이고 불충분한 텍스트 설명으로 인한 정보 불일치 문제를 해결하기 위해, 텍스트 재작성 대신 비디오 표현 자체를 향상시키는 방법을 제안한다. 다양한 비디오 내용을 포괄적으로 설명하는 자막 생성을 통해 비디오와 텍스트 표현 간의 차이를 줄이는 데 초점을 맞춘다. 이를 위해, 다중 모달 대규모 언어 모델(mLLM)을 활용하여 자막을 생성하고, 자기 학습 기반의 자동 자막 개선 방법과 전문화된 자막 선택 메커니즘을 제안한다. 이 방법은 데이터 기반으로 작동하며, 사전 의존성을 피하고 개인화된 매칭을 도입하여 자가 적응성을 향상시킨다. MSR-VTT, MSVD, DiDeMo 데이터셋에서 우수한 성능(각각 68.5%, 68.1%, 62.0%의 Top-1 재현율)을 달성했다.