Este artículo propone la Integración Visual de Subtítulos (VSI), un método eficiente de recuperación de fotogramas clave para la comprensión de videos de larga duración. Para abordar las limitaciones de los métodos existentes de recuperación de fotogramas clave, que incluyen una alineación multimodal deficiente entre las consultas textuales y el contenido visual, y la imposibilidad de capturar información semántica temporal compleja, VSI integra subtítulos, marcas de tiempo y límites de escena en un proceso unificado de recuperación multimodal. Aprovecha la información visual y textual complementaria en los fotogramas de video mediante un flujo de recuperación de video y un flujo de coincidencia de subtítulos, y mejora la precisión de la recuperación de fotogramas clave mediante la interacción de ambos flujos. En el conjunto de datos LongVideoBench, VSI supera significativamente a los métodos de la competencia en precisión de ubicación de fotogramas clave y en la tarea de preguntas y respuestas de videos de larga duración (Video-QA), logrando un rendimiento de vanguardia.