Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¡Reacción en cadena! Enfoque estructurado con cadenas causales como representaciones intermedias para una mejor y más explicable respuesta a preguntas causales en video.

Created by
  • Haebom

Autor

Paritosh Parmar, Eric Peh, Basura Fernando

Describir

Los modelos existentes de Respuesta a Preguntas de Video (VideoQA) basados ​​en causalidad presentan dificultades para la inferencia de alto nivel y tienden a basarse en canales opacos y monolíticos que entrelazan la comprensión del video, la inferencia causal y la generación de respuestas. Estos enfoques de caja negra tienen una interpretabilidad limitada y tienden a basarse en heurísticas superficiales. En este artículo, proponemos un novedoso marco modular que separa explícitamente la inferencia causal de la generación de respuestas. Al introducir cadenas causales en lenguaje natural como representaciones intermedias interpretables, facilitamos una inferencia transparente y lógicamente consistente mediante secuencias causales estructuradas que conectan el contenido de video de bajo nivel con la inferencia causal de alto nivel. La arquitectura de dos etapas consta de un extractor de cadenas causales (CCE), que genera cadenas causales a partir de pares de video-pregunta, y un respondedor basado en cadenas causales (CCDA), que genera respuestas basadas en estas cadenas. Para abordar la falta de trazas de inferencia anotadas, proponemos un método escalable para generar cadenas causales de alta calidad a partir de conjuntos de datos existentes utilizando modelos de lenguaje a gran escala. También proponemos CauCo, una novedosa métrica de evaluación para subtítulos con orientación causal. Experimentos con tres puntos de referencia a gran escala demuestran que el enfoque propuesto no solo supera a los modelos más modernos, sino que también ofrece ventajas significativas en explicabilidad, confianza del usuario y generalización, consolidando a CCE como un motor de inferencia causal reutilizable en diversos dominios.

Takeaways, Limitations

Takeaways:
Mejoramos la interpretabilidad y confiabilidad del modelo al separar la inferencia causal de la generación de respuestas.
Proporciona un proceso de inferencia transparente y lógico utilizando cadenas causales del lenguaje natural como representaciones intermedias.
Presentamos un método escalable para generar cadenas causales aprovechando modelos lingüísticos de gran escala.
Mejoramos la evaluación de subtítulos causales al proponer una nueva métrica de evaluación, CauCo.
Se puede utilizar como un motor de inferencia causal reutilizable en varios dominios.
Ofrece resultados que superan el rendimiento de los modelos de vanguardia.
Limitations:
El rendimiento del método propuesto puede depender del rendimiento de modelos de lenguaje a gran escala.
La calidad de la cadena causal generada puede afectar el rendimiento del modelo.
Se necesita más investigación para explorar la versatilidad y el rendimiento de generalización de las nuevas métricas de evaluación, incluido CauCo.
El rendimiento puede verse degradado para ciertos tipos de vídeos o preguntas.
👍