En este artículo, proponemos Grounded-VideoLLM, un novedoso Video-LLM que reconoce e infiere momentos de video específicos con granularidad fina para abordar las limitaciones de los Video Large Language Models (Video-LLM) existentes, que tienen dificultades para comprender información temporal de granularidad fina. Grounded-VideoLLM aborda las deficiencias de los modelos existentes en el modelado temporal y la representación de marcas de tiempo mediante la introducción de flujos temporales adicionales que codifican relaciones entre fotogramas y tokens temporales discretos ricos en información temporal específica. Entrenamos el modelo mediante un enfoque de aprendizaje multietapa y mejoramos su capacidad de inferencia temporal aprovechando el conjunto de datos Grounded VideoQA, generado mediante un flujo de anotación automático. Los resultados experimentales demuestran que Grounded-VideoLLM destaca en tareas de asignación de granularidad fina, como la asignación temporal basada en oraciones, la generación de subtítulos de video densos y Grounded VideoQA, lo que demuestra su potencial como un asistente de video versátil para la comprensión general de video.