본 논문은 장시간 비디오 이해를 위한 효율적인 키프레임 검색 방법인 Visual-Subtitle Integration(VSI)을 제안합니다. 기존 키프레임 검색 방법의 한계인 텍스트 질의와 시각적 콘텐츠 간의 약한 다중 모드 정렬 및 복잡한 시간적 의미 정보 포착 실패 문제를 해결하기 위해, VSI는 자막, 타임스탬프, 장면 경계를 통합된 다중 모드 검색 프로세스에 통합합니다. 비디오 검색 스트림과 자막 일치 스트림을 통해 비디오 프레임의 시각 정보와 보완적인 텍스트 정보를 모두 활용하며, 두 스트림의 상호 작용을 통해 키프레임 검색 정확도를 향상시킵니다. LongVideoBench 데이터셋에서 키프레임 위치 정확도 및 장시간 비디오 질의응답(Video-QA) 과제에서 경쟁 기법들을 상당한 차이로 능가하는 성능을 달성하여 SOTA를 달성했습니다.