Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ELV-Halluc: Evaluación comparativa de alucinaciones por agregación semántica en la comprensión de vídeos largos

Created by
  • Haebom

Autor

Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

Describir

Este artículo se centra en el problema de las alucinaciones en los modelos de lenguaje multimodales a gran escala (Video-MLLM), específicamente en la alucinación por agregación semántica (SAH) que ocurre en videos de larga duración. A diferencia de estudios previos que se centraron principalmente en videos de corta duración y simplificaron las causas de la alucinación, este artículo proporciona un análisis profundo de la SAH, que ocurre en el complejo contexto semántico de los videos de larga duración. La SAH es un fenómeno en el que la semántica fotograma a fotograma es precisa, pero se genera una salida incorrecta al agregar esta información en unidades evento a evento. Este fenómeno es particularmente severo en videos de larga duración. Para abordar este problema, proponemos un nuevo punto de referencia para la alucinación en videos de larga duración, ELV-Halluc, y verificamos la presencia de SAH, analizando su correlación con la complejidad semántica y la tasa de cambio semántico. Además, proponemos un método para mitigar la SAH utilizando estrategias de codificación posicional y desplazamiento posicional dinámico (DPO). Demostramos una mejora en el rendimiento del modelo en un conjunto de datos compuesto por 8000 pares de datos antagónicos. Finalmente, logramos una reducción del 27,7 % en la tasa de SAH.

Takeaways, Limitations

Takeaways:
Video-MLLM proporciona una comprensión más profunda del problema de las alucinaciones en vídeos de larga duración, en particular el fenómeno SAH.
Analizamos cuantitativamente las causas y la gravedad de la HSA y revelamos su correlación con la complejidad semántica y la tasa de cambio semántico.
Proponemos y verificamos experimentalmente métodos efectivos (estrategia de codificación de posición, estrategia DPO) para la mitigación de SAH.
Presentamos un nuevo punto de referencia, ELV-Halluc, para evaluar las alucinaciones en vídeo a largo plazo.
Publicamos un nuevo conjunto de datos que consta de 8.000 pares de datos adversarios.
Limitations:
El índice de referencia ELV-Halluc todavía se encuentra en sus primeras etapas y puede requerir una mayor expansión hacia un conjunto de datos más diverso y completo.
Se necesitan más estudios para determinar si el método de alivio de la SAH propuesto es eficaz para todos los tipos de alucinaciones de vídeo prolongadas.
Hay una falta de análisis de otros tipos de alucinaciones de vídeo prolongadas distintas de la HSA.
👍