Dans cet article, nous proposons la méthode VideoITG (Instructed Temporal Grounding for Videos), une nouvelle méthode de sélection d'images guidée par les instructions utilisateur afin d'améliorer les performances des Video-LLM. VideoITG s'appuie sur VidThinker, un framework d'annotation automatique. Il comprend trois étapes : la génération de sous-titres détaillés au niveau du clip, guidés par les instructions utilisateur, la récupération des segments vidéo pertinents par inférence basée sur les instructions, et une sélection d'images fine pour identifier avec précision les preuves visuelles riches. Grâce à VidThinker, nous avons construit l'ensemble de données VideoITG-40K contenant 40 000 vidéos et 500 000 annotations, et conçu un modèle VideoITG prêt à l'emploi qui exploite les capacités d'alignement et d'inférence du langage visuel des Video-LLM. Les résultats expérimentaux démontrent des améliorations constantes des performances sur divers benchmarks de compréhension vidéo multimodale, démontrant ainsi sa supériorité et son potentiel pour la compréhension vidéo.