Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ELV-Halluc: Evaluación comparativa de alucinaciones por agregación semántica en la comprensión de vídeos largos

Created by
  • Haebom

Autor

Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

Describir

Este artículo se centra en el problema de las alucinaciones en los Modelos de Lenguaje Multimodales a Gran Escala (MLLM) de Vídeo, específicamente en la Alucinación por Agregación Semántica (AAS) que se produce en vídeos de larga duración. A diferencia de estudios previos que han simplificado las causas de las alucinaciones centrándose en vídeos cortos, este artículo redefine la AAS, que se produce durante el procesamiento semántico complejo en vídeos de larga duración, y presenta un nuevo punto de referencia, ELV-Halluc, para este fin. Utilizando ELV-Halluc, confirmamos la presencia de AAS, analizamos su correlación con la complejidad semántica y los cambios semánticos rápidos, y verificamos experimentalmente la eficacia de las estrategias de codificación posicional y de desplazamiento posicional dinámico (DPO) para la mitigación de AAS. Utilizando 8.000 pares de datos adversarios, mejoramos el rendimiento del modelo y logramos una reducción del 27,7 % en la tasa de AAS.

Takeaways, Limitations

Takeaways:
Definimos un nuevo tipo de alucinación en vídeos de larga duración, SAH, y presentamos un nuevo punto de referencia, ELV-Halluc, para ello.
Analizar las causas y características de la HSA y dilucidar su correlación con la complejidad semántica y la tasa de cambio semántico.
Presentación de estrategias efectivas (estrategia de codificación de posición, estrategia DPO) para la mitigación de SAH y la verificación de la mejora del desempeño.
Contribuyó a mejorar el rendimiento de Video-MLLM para la comprensión de videos a largo plazo.
Limitations:
El tamaño de los datos del índice de referencia ELV-Halluc puede ser relativamente pequeño: 8.000.
Se necesita una mayor validación del desempeño de generalización de la estrategia de mitigación de SAH propuesta.
Es posible que no se evalúe la aplicabilidad de las estrategias de incidencia y mitigación de SAH para los diferentes tipos de Video-MLLM.
👍