Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Salida temprana y destilación de conocimiento en múltiples etapas en VLM para resúmenes de video

Created by
  • Haebom

Autor

Anas Anwarul Haq Khan, Utkarsh Verma, Ganesh Ramakrishnan

Describir

DEEVISum es un modelo de lenguaje de visión ligero, eficiente y escalable, diseñado para el resumen de segmentos de vídeo. Aprovecha indicaciones multimodales que combinan señales de texto y audio, e integra la destilación de conocimiento multietapa (MSKD) y la terminación temprana (EE) para equilibrar el rendimiento y la eficiencia. MSKD ofrece una mejora absoluta de F1 del 1,33 % con respecto a la destilación de referencia, mientras que EE reduce el tiempo de inferencia en aproximadamente un 21 %, a costa de una disminución de 1,3 puntos en la puntuación F1. Al evaluarse en el conjunto de datos TVSum, el modelo con mejor rendimiento, PaLI Gemma2 3B + MSKD, alcanzó una puntuación F1 de 61,1, lo que lo hace competitivo frente a modelos mucho más grandes, manteniendo un bajo coste computacional. El código y el conjunto de datos procesados ​​están disponibles para futuras investigaciones.

Takeaways, Limitations

Takeaways:
Mejoramos la eficiencia y la escalabilidad del resumen de video a través de un modelo de lenguaje de visión liviano.
Logramos con éxito un equilibrio entre rendimiento y eficiencia a través de las técnicas MSKD y EE.
Logramos un rendimiento comparable a los modelos de gran escala con un bajo costo computacional.
Apoyamos la investigación de seguimiento poniendo a disposición del público nuestro código y conjuntos de datos.
Limitations:
La puntuación F1 disminuyó en 1,3 puntos al aplicar la técnica EE.
Dado que se evaluó utilizando solo un conjunto de datos TVSum, se necesita una validación adicional del rendimiento de generalización.
👍