Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

Created by
  • Haebom

Autor

Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng

Describir

Este artículo propone MESH, un nuevo modelo de referencia para la evaluación sistemática de alucinaciones en modelos de video a gran escala (MVE). Más allá del enfoque de clasificación manual de los modelos de referencia existentes (Limitations), MESH utiliza un enfoque de preguntas y respuestas para evaluar objetos básicos, características detalladas y pares sujeto-acción, imitando el proceso de comprensión de video humano. MESH se centra en la identificación eficaz de alucinaciones en MVE, incluyendo preguntas binarias y de opción múltiple, así como instancias de objetivo y trampa. Los resultados experimentales demuestran que, si bien los MVE destacan en el reconocimiento básico de objetos y características, su tasa de alucinaciones aumenta significativamente al procesar información detallada o múltiples acciones en videos de larga duración que involucran a múltiples sujetos.

Takeaways, Limitations

Takeaways:
Superamos las limitaciones de la evaluación de las alucinaciones por vídeo que se basa en los métodos de clasificación manual existentes y presentamos un nuevo punto de referencia de evaluación, MESH, basado en el proceso de comprensión de vídeo humano.
MESH puede evaluar de manera sistemática y efectiva los problemas de alucinaciones de los LVM y sugerir direcciones para mejorarlos.
Analizar las causas y patrones de alucinaciones en LVM para brindar información que pueda contribuir a la mejora del rendimiento.
Demuestra claramente la brecha de rendimiento entre el reconocimiento básico de objetos y características y la comprensión de secuencias complejas.
Limitations:
Se requiere una validación objetiva adicional del diseño y la configuración del propio punto de referencia MESH.
La evaluación actual puede limitarse a LVM específicos y es necesaria la verificación de la generalización a varios modelos.
Existe la posibilidad de que no refleje perfectamente el proceso de comprensión del vídeo humano.
Es necesario un análisis más profundo de cómo la incidencia de las alucinaciones varía según la complejidad y la duración del vídeo.
👍