Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VIPER: Percepción visual y razonamiento explicable para la toma de decisiones secuencial

Created by
  • Haebom

Autor

Mohamed Salim Aissi, Clémence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

Describir

Este artículo presenta VIPER, un novedoso marco multimodal para la planificación visualmente guiada. VIPER integra la percepción basada en un Modelo de Visión-Lenguaje (VLM) y la inferencia basada en un Modelo de Lenguaje Grande (LLM). Utiliza una secuencia modular donde un VLM congelado genera descripciones textuales de observaciones de imágenes, que posteriormente son utilizadas por una política LLM para predecir acciones basadas en el objetivo de la tarea. La replicación de acciones y el aprendizaje por refuerzo se utilizan para perfeccionar el módulo de inferencia y mejorar la capacidad de toma de decisiones del agente. Los resultados experimentales del benchmark ALFWorld demuestran que VIPER supera significativamente a los planificadores visualmente guiados de última generación y supera a los oráculos basados ​​exclusivamente en texto. Al utilizar el texto como representación intermedia, VIPER mejora la explicabilidad y facilita el análisis detallado de los componentes de percepción e inferencia.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que resuelve eficazmente problemas de planificación dirigidos visualmente mediante la integración de VLM y LLM.
Utilizar el texto como representación intermedia para mejorar la explicabilidad de los modelos y facilitar el análisis de los procesos de percepción/inferencia.
Mejora del rendimiento con respecto a los modelos anteriores de alto rendimiento en el benchmark ALFWorld.
Mejorar la toma de decisiones de los agentes mediante la replicación de acciones y el aprendizaje de refuerzo.
Limitations:
Debido a la dependencia del punto de referencia ALFWorld, el rendimiento de generalización en otros entornos requiere una verificación adicional.
Se necesita más investigación para abordar la posible degradación del rendimiento y los problemas de eficiencia que puedan surgir durante la integración de VLM y LLM.
Aún existe una brecha de rendimiento con Oracle basado puramente en texto.
👍