Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Grounded-VideoLLM: Afinando la base temporal de grano fino en modelos de lenguaje de video de gran tamaño

Created by
  • Haebom

Autor

Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang

Describir

En este artículo, proponemos Grounded-VideoLLM, un novedoso Video-LLM que reconoce e infiere momentos de video específicos con granularidad fina para abordar las limitaciones de los Video Large Language Models (Video-LLM) existentes, que tienen dificultades para comprender información temporal de granularidad fina. Grounded-VideoLLM aborda las deficiencias de los modelos existentes en el modelado temporal y la representación de marcas de tiempo mediante la introducción de flujos temporales adicionales que codifican relaciones entre fotogramas y tokens temporales discretos ricos en información temporal específica. Entrenamos el modelo mediante un enfoque de aprendizaje multietapa y mejoramos su capacidad de inferencia temporal aprovechando el conjunto de datos Grounded VideoQA, generado mediante un flujo de anotación automático. Los resultados experimentales demuestran que Grounded-VideoLLM destaca en tareas de asignación de granularidad fina, como la asignación temporal basada en oraciones, la generación de subtítulos de video densos y Grounded VideoQA, lo que demuestra su potencial como un asistente de video versátil para la comprensión general de video.

Takeaways, Limitations

Takeaways:
Presentamos una nueva arquitectura que supera las limitaciones del modelado temporal y la representación de marcas de tiempo en el Video-LLM existente.
Consiga un rendimiento superior en tareas de asignación temporal de grano fino, como asignación temporal basada en oraciones, generación de subtítulos de video densos y VideoQA fundamentado.
Presenta el potencial como un asistente de vídeo versátil que puede utilizarse para diversas tareas de comprensión de vídeo.
Presentamos un método eficiente para construir conjuntos de datos utilizando un flujo de anotación automático.
Limitations:
Es posible que falte análisis de la importancia relativa de los factores que contribuyen a la mejora del rendimiento del modelo propuesto.
Se necesita una mayor validación del rendimiento de generalización en varios tipos de datos de vídeo.
Es necesario evaluar la precisión y confiabilidad del proceso de anotación automatizada.
Es posible que falten resultados experimentales en grandes conjuntos de datos del mundo real.
👍