[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VideoITG: Comprensión de video multimodal con fundamento temporal instruido

Created by
  • Haebom

Autor

Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu

Describir

En este artículo, proponemos la Conexión Temporal Instruida para Videos (VideoITG), un novedoso método para seleccionar fotogramas guiado por instrucciones del usuario y mejorar el rendimiento de los Video-LLM. VideoITG se centra en VidThinker, un marco de anotación automática. Consta de tres pasos: generación de subtítulos detallados a nivel de clip guiados por instrucciones del usuario, recuperación de segmentos de video relevantes mediante inferencia basada en instrucciones y selección de fotogramas de granularidad fina para identificar con precisión evidencia visual rica. Utilizando VidThinker, construimos el conjunto de datos VideoITG-40K, que contiene 40 000 videos y 500 000 anotaciones, y diseñamos un modelo VideoITG listo para usar que aprovecha las capacidades de alineación visual-lingüística e inferencial de los Video-LLM. Los resultados experimentales demuestran mejoras consistentes en el rendimiento en diversas pruebas de comprensión de video multimodal, lo que demuestra su superioridad y potencial para la comprensión de video.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar el rendimiento de los Video-LLM mediante el uso de selección de cuadros basada en instrucciones del usuario.
Presentando la posibilidad de construir conjuntos de datos eficientes a través del marco de anotación automática VidThinker.
Los modelos VideoITG plug-and-play son aplicables a una variedad de Video-LLM.
Demostramos mejoras de rendimiento en una variedad de puntos de referencia de comprensión de video multimodal.
El conjunto de datos VideoITG-40K proporciona un recurso valioso para futuras investigaciones.
Limitations:
Se necesita una validación adicional de la precisión de la anotación automática y el rendimiento de generalización de VidThinker.
Posible degradación del rendimiento para ciertos tipos de vídeos o directivas.
Se necesita más investigación sobre la eficiencia y la escalabilidad de los vídeos de larga duración.
Es necesario evaluar el desempeño de la generalización en diferentes idiomas y orígenes culturales.
👍