DEEVISum es un modelo de lenguaje de visión ligero, eficiente y escalable, diseñado para el resumen de segmentos de vídeo. Aprovecha indicaciones multimodales que combinan señales de texto y audio, e integra la destilación de conocimiento multietapa (MSKD) y la terminación temprana (EE) para equilibrar el rendimiento y la eficiencia. MSKD ofrece una mejora absoluta de F1 del 1,33 % con respecto a la destilación de referencia, mientras que EE reduce el tiempo de inferencia en aproximadamente un 21 %, a costa de una disminución de 1,3 puntos en la puntuación F1. Al evaluarse en el conjunto de datos TVSum, el modelo con mejor rendimiento, PaLI Gemma2 3B + MSKD, alcanzó una puntuación F1 de 61,1, lo que lo hace competitivo frente a modelos mucho más grandes, manteniendo un bajo coste computacional. El código y el conjunto de datos procesados están disponibles para futuras investigaciones.