Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MESH - Entendiendo los videos como humanos: Medición de alucinaciones en modelos de video grandes

Created by
  • Haebom

Autor

Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng

Describir

Este artículo propone MESH, un nuevo modelo de referencia para la evaluación sistemática de alucinaciones en modelos de video a gran escala (MVE). Para superar las limitaciones de los modelos existentes, MESH utiliza un enfoque de preguntas y respuestas para evaluar objetos básicos, características detalladas y pares sujeto-acción de forma multicapa. Este enfoque imita el proceso humano de comprensión de video, con el objetivo de identificar con mayor precisión las causas de las alucinaciones en MVE. Los resultados experimentales demuestran que, si bien los MVE son hábiles para reconocer objetos y características básicas, su tasa de alucinaciones aumenta significativamente en escenas que contienen información detallada o acciones complejas de múltiples sujetos.

Takeaways, Limitations

Takeaways:
Superando las limitaciones de los métodos de evaluación de alucinaciones en vídeo que se basan en métodos de clasificación manual existentes, presentamos nuevos criterios de evaluación que reflejan los procesos de percepción humana.
Desarrollo de un modelo MESH de referencia para analizar exhaustivamente el problema de alucinaciones de LVM e identificar con mayor precisión sus causas.
Presentar claramente las fortalezas y debilidades de LVM para sugerir futuras direcciones de desarrollo del modelo.
Limitations:
Se necesita una validación adicional del rendimiento de generalización del punto de referencia MESH.
Falta de presentación de resultados de evaluación para varios tipos de LVM.
Existe la posibilidad de que no refleje perfectamente la complejidad de los datos de vídeo reales.
👍