Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VSI: Integración visual de subtítulos para la selección de fotogramas clave y una mejor comprensión de vídeos largos

Created by
  • Haebom

Autor

Jianxiang He, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

Describir

Este artículo propone la Integración Visual de Subtítulos (VSI), un método eficiente de recuperación de fotogramas clave para la comprensión de videos de larga duración. Para abordar las limitaciones de los métodos existentes de recuperación de fotogramas clave, que incluyen una alineación multimodal deficiente entre las consultas textuales y el contenido visual, y la imposibilidad de capturar información semántica temporal compleja, VSI integra subtítulos, marcas de tiempo y límites de escena en un proceso unificado de recuperación multimodal. Aprovecha la información visual y textual complementaria en los fotogramas de video mediante un flujo de recuperación de video y un flujo de coincidencia de subtítulos, y mejora la precisión de la recuperación de fotogramas clave mediante la interacción de ambos flujos. En el conjunto de datos LongVideoBench, VSI supera significativamente a los métodos de la competencia en precisión de ubicación de fotogramas clave y en la tarea de preguntas y respuestas de videos de larga duración (Video-QA), logrando un rendimiento de vanguardia.

Takeaways, Limitations

Takeaways:
Demostramos la eficacia de la búsqueda de fotogramas clave multimodal utilizando información de subtítulos, marcas de tiempo y límites de escena.
Se presenta un método de búsqueda de fotogramas clave eficiente y preciso para la comprensión de vídeos a largo plazo.
Cómo lograr el rendimiento SOTA en el conjunto de datos LongVideoBench.
Verificación de la robustez y generalización de las estrategias de búsqueda multimodal.
Limitations:
Se necesita más investigación para evaluar la generalización mediante la evaluación del rendimiento en un conjunto de datos específico (LongVideoBench).
Se necesita un análisis más profundo de la complejidad computacional y la eficiencia de VSI.
Se necesita una evaluación del rendimiento para varios tipos de vídeos de larga duración.
Aplicabilidad limitada a vídeos sin subtítulos.
👍