Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IPFormer-VideoLLM: Mejora de la comprensión de vídeo multimodal para escenas con múltiples tomas

Created by
  • Haebom

Autor

Yujia Liang, Jile Jiao, Xuetao Feng, Zixuan Ye, Yuan Wang, Zhicheng Wang

Describir

En este artículo, presentamos un nuevo conjunto de datos, MultiClip-Bench, que incluye descripciones densas y pares de preguntas y respuestas basados ​​en instrucciones, adaptados a escenarios multitoma. Este conjunto aborda los desafíos que enfrentan los Video Large Language Models (VideoLLM) en escenarios multitoma (videoclips con diferentes ángulos de cámara o cambios de escena). Analizamos el problema de que los modelos existentes codifican de forma incompleta la información de los objetos y proponemos un nuevo modelo, IPFormer-VideoLLM, que inyecta características a nivel de objeto como indicaciones de instancia mediante una concatenación eficiente basada en la atención. Los resultados experimentales demuestran que el conjunto de datos y los modelos propuestos mejoran significativamente la comprensión de video multiescena y ofrecen ventajas significativas en diversas pruebas de referencia de video.

Takeaways, Limitations

Takeaways:
Presentamos MultiClip-Bench, un nuevo conjunto de datos para la comprensión de videos de múltiples tomas
Propuesta de un nuevo modelo IPFormer-VideoLLM para resolver el problema de pérdida de información de objetos
Se mejoró el rendimiento de comprensión de videos de múltiples escenas y se demostró un rendimiento superior en varios puntos de referencia.
Limitations:
Es necesario tener en cuenta consideraciones adicionales respecto del tamaño y la diversidad del conjunto de datos MultiClip-Bench.
Se necesita un análisis más profundo del costo computacional y la eficiencia de IPFormer-VideoLLM.
Se necesita más investigación sobre el rendimiento de generalización del modelo propuesto.
👍