Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MUPA: Hacia un razonamiento agente multitrayectoria para la respuesta fundamentada a preguntas en vídeo

Created by
  • Haebom

Autor

Jisheng Dang, Huilin Song, Junbin Xiao, Bimei Wang, Han Peng, Haoxuan Li, Xun Yang, Meng Wang, Tat-Seng Chua

Describir

MUPA es un enfoque de agente multitrayectoria propuesto para resolver el problema de VideoQA Fundamentado (Grounded Video Question Answering). Utiliza un enfoque colaborativo que integra la verificación de video, la respuesta a preguntas, la reflexión de respuestas y la agregación para abordar el problema de que los modelos multimodales existentes se basan en conocimiento lingüístico previo y correlaciones espurias para generar predicciones sin fundamento. Realiza la respuesta a preguntas y la verificación de campo consistentemente mediante tres rutas de inferencia independientes y un agente de reflexión que juzga y agrega los resultados multitrayectoria. Con tan solo 2 mil millones de parámetros, supera a los modelos de la competencia con 7 mil millones de parámetros y alcanza un rendimiento de vanguardia con Acc@GQA del 30,3 % en NExT-GQA y del 47,4 % en DeVE-QA al escalarse a 7 mil millones de parámetros.

Takeaways, Limitations

Takeaways:
Resuelve eficazmente el problema de la confianza excesiva en el conocimiento lingüístico previo y las correlaciones falsas, que son limitaciones de los modelos Grounded VideoQA existentes.
Logra un rendimiento que supera los modelos a gran escala existentes (7 mil millones) incluso con un número pequeño de parámetros (2 mil millones).
Mejora de la comprensión confiable del lenguaje en vídeo mediante inferencia de múltiples rutas y agentes reflexivos.
Un nuevo récord de rendimiento de última generación en Grounded VideoQA.
Limitations:
El artículo no menciona específicamente Limitations. Podría ser necesario realizar más investigaciones para evaluar el rendimiento en diferentes conjuntos de datos o preguntas más complejas.
Si bien se han observado mejoras en el rendimiento al aumentar el tamaño del modelo, falta análisis de las mejoras en el rendimiento de Limitations a medida que aumentan los parámetros.
👍