Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

Created by
  • Haebom

Autor

Mohamed Salim Aissi, Clémence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

Describir

En este artículo, proponemos VIPER, un novedoso marco para la planificación visualmente guiada. VIPER integra la percepción basada en un Modelo de Visión-Lenguaje (VLM) y la inferencia basada en un Modelo de Lenguaje Grande (LLM). Utiliza una secuencia modular donde el VLM genera descripciones textuales de las observaciones de imágenes, y la política del LLM predice acciones según el objetivo de la tarea. Optimizamos el módulo de inferencia mediante replicación de acciones y aprendizaje por refuerzo para mejorar la capacidad de toma de decisiones del agente. Los resultados experimentales del benchmark ALFWorld demuestran que VIPER supera significativamente la planificación visualmente guiada de vanguardia y reduce la diferencia de rendimiento con los oráculos basados ​​exclusivamente en texto. Al utilizar el texto como representación intermedia, mejoramos la explicabilidad y facilitamos un análisis detallado de los componentes de percepción e inferencia.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para los problemas de planificación dirigidos visualmente mediante la integración de VLM y LLM.
Muestra un rendimiento mejorado en comparación con los modelos de última generación existentes y reduce la brecha de rendimiento con los oráculos basados ​​en texto.
El potencial explicativo del proceso de planificación se ha incrementado mediante representaciones intermedias de texto.
Ahora es posible realizar un análisis detallado de los componentes de percepción y razonamiento.
Limitations:
Sólo se presentan los resultados del benchmark ALFWorld y no se ha verificado el rendimiento de generalización en otros entornos.
Es posible que falte una explicación detallada de cómo se integran VLM y LLM y del proceso de ajuste.
Hay una falta de revisión de aplicaciones en el mundo real.
👍