Cet article propose l'intégration visuelle des sous-titres (VSI), une méthode efficace de recherche d'images clés pour la compréhension des vidéos longues. Pour pallier les limites des méthodes existantes de recherche d'images clés, notamment un faible alignement multimodal entre les requêtes textuelles et le contenu visuel, et une incapacité à capturer des informations sémantiques temporelles complexes, VSI intègre les sous-titres, les horodatages et les limites de scène dans un processus de recherche multimodal unifié. Elle exploite les informations visuelles et textuelles complémentaires des images vidéo via un flux de recherche vidéo et un flux de correspondance des sous-titres, et améliore la précision de la recherche d'images clés grâce à l'interaction des deux flux. Sur le jeu de données LongVideoBench, VSI surpasse nettement les méthodes concurrentes en termes de précision de localisation des images clés et de tâche de questions-réponses vidéo longues (Video-QA), atteignant des performances de pointe.