En este artículo, proponemos la Conexión Temporal Instruida para Videos (VideoITG), un novedoso método para seleccionar fotogramas guiado por instrucciones del usuario y mejorar el rendimiento de los Video-LLM. VideoITG se centra en VidThinker, un marco de anotación automática. Consta de tres pasos: generación de subtítulos detallados a nivel de clip guiados por instrucciones del usuario, recuperación de segmentos de video relevantes mediante inferencia basada en instrucciones y selección de fotogramas de granularidad fina para identificar con precisión evidencia visual rica. Utilizando VidThinker, construimos el conjunto de datos VideoITG-40K, que contiene 40 000 videos y 500 000 anotaciones, y diseñamos un modelo VideoITG listo para usar que aprovecha las capacidades de alineación visual-lingüística e inferencial de los Video-LLM. Los resultados experimentales demuestran mejoras consistentes en el rendimiento en diversas pruebas de comprensión de video multimodal, lo que demuestra su superioridad y potencial para la comprensión de video.