Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LVBench: Un video de referencia extremadamente largo para comprender el rendimiento

Created by
  • Haebom

Autor

Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang

Describir

Este artículo destaca las limitaciones de los modelos lingüísticos multimodales a gran escala y los conjuntos de datos de evaluación existentes, centrados en la comprensión de vídeos cortos (menos de un minuto), y destaca su incapacidad para satisfacer las necesidades de aplicaciones prácticas, como la inteligencia incorporada para la toma de decisiones a largo plazo, las reseñas y debates cinematográficos exhaustivos y los comentarios deportivos en tiempo real, que requieren la comprensión de vídeos largos. Para abordar este problema, proponemos LVBench, un novedoso punto de referencia para la comprensión de vídeos largos. LVBench consta de diversos vídeos y tareas disponibles públicamente, orientados a la comprensión de vídeos largos y la extracción de información, diseñados para evaluar la memoria a largo plazo y las capacidades de comprensión extendida de los modelos multimodales. Los resultados experimentales demuestran que los modelos multimodales actuales aún presentan un rendimiento inferior en estas complejas tareas de comprensión de vídeos largos. LVBench tiene como objetivo estimular el desarrollo de modelos más avanzados que puedan abordar las complejidades de la comprensión de vídeos largos, y sus datos y código están disponibles públicamente.

Takeaways, Limitations

Takeaways: Presentamos LVBench, un nuevo punto de referencia para la comprensión de imágenes a largo plazo, que aclara las limitaciones de los modelos existentes y sugiere futuras líneas de investigación. El conjunto de datos y el código, disponibles públicamente, pueden acelerar el desarrollo de modelos multimodales. Esto proporciona una base crucial para el desarrollo de tecnologías de comprensión de imágenes a largo plazo, necesarias para aplicaciones prácticas.
Limitations: LVBench aún se encuentra en sus etapas iniciales, por lo que necesita incorporar tipos más diversos de videos y tareas a largo plazo. Se carece de un análisis profundo de las causas del bajo rendimiento del modelo actual. Es necesario ampliar el conjunto de datos para tener en cuenta la diversidad lingüística y cultural.
👍