Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Pueden los modelos multimodales de vídeo grandes pensar como escépticos o redoblar esfuerzos? Un estudio sobre la implicación de vídeo revocable

Created by
  • Haebom

Autor

Yue Zhang, Jilei Sun, Yunhui Guo, Vibhav Gogate

Describir

Este artículo tiene como objetivo mejorar la capacidad de inferencia de los modelos multimodales a gran escala de video (VLMM), centrándose en mejorar la capacidad de inferencia abstracta y adaptativa para modificar la interpretación cuando aparece nueva información. Para resolver el problema fijo de derivación de conclusiones de los VLMM existentes, presentamos una nueva tarea, 'Implicaciones de Video Refutables (DVidE)'. Dada una premisa de video y una hipótesis de texto, DVidE consiste en una tarea de clasificación que determina si la nueva información fortalece o debilita la hipótesis, y una tarea de generación que genera información actualizada que modifica la relación de implicatura con la hipótesis. Para la tarea de clasificación, proponemos un marco de 'cadena de pensamiento contrafactual' que utiliza inferencia contrafactual, contenido de video mejorado con ASR y mejora de la evidencia para reducir el sesgo de inferencia. Para la tarea de generación, desarrollamos un marco que combina la salida de ASR y un modelo de lenguaje a gran escala (LLM) para generar información actualizada sensible al contexto. Además, presentamos un nuevo conjunto de datos de referencia que incluye anotaciones de fortalecimiento/debilitamiento y una métrica de evaluación basada en LLM para evaluar el rendimiento de la generación. Los resultados experimentales demuestran que el método propuesto es eficaz para mejorar la capacidad de inferencia dinámica de los VLMM.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para mejorar la capacidad de inferencia adaptativa de los VLMM (tarea DVidE)
Desarrollo de un marco que utiliza eficazmente el razonamiento contrafáctico, ASR y LLM
Proporcionar nuevos conjuntos de datos de referencia y métricas de evaluación
Verificación experimental de la mejora de la capacidad de inferencia dinámica de los VLMM
Limitations:
Se necesitan más investigaciones sobre el rendimiento de generalización del método propuesto y su aplicabilidad a varios tipos de vídeo.
Limitaciones en el tamaño y la diversidad de los nuevos conjuntos de datos de referencia
Se necesita una mayor verificación de la objetividad y confiabilidad de los indicadores de evaluación basados ​​en LLM
👍