Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VIPER : Perception visuelle et raisonnement explicable pour la prise de décision séquentielle

Created by
  • Haebom

Auteur

Mohamed Salim Aissi, Clémence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

Contour

Dans cet article, nous proposons VIPER, un nouveau cadre pour la planification guidée visuellement. VIPER intègre la perception basée sur un modèle vision-langage (VLM) et l'inférence basée sur un modèle de langage large (LLM). Il utilise un pipeline modulaire où le VLM génère des descriptions textuelles d'observations d'images, et la politique LLM prédit les actions en fonction de l'objectif de la tâche. Nous affinons le module d'inférence en utilisant la réplication d'actions et l'apprentissage par renforcement pour améliorer la capacité de prise de décision de l'agent. Les résultats expérimentaux obtenus sur le benchmark ALFWorld démontrent que VIPER surpasse significativement la planification guidée visuellement de pointe existante et réduit l'écart de performance avec les oracles purement textuels. En exploitant le texte comme représentation intermédiaire, nous améliorons l'explicabilité et permettons une analyse détaillée des composantes perception et inférence.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche des problèmes de planification visuellement dirigée en intégrant VLM et LLM.
Il présente des performances améliorées par rapport aux modèles de pointe existants et réduit l'écart de performances avec les oracles basés sur du texte.
Le potentiel explicatif du processus de planification a été accru grâce à des représentations textuelles intermédiaires.
Une analyse détaillée des composantes de perception et de raisonnement est désormais possible.
Limitations:
Seuls les résultats du benchmark ALFWorld sont présentés et les performances de généralisation dans d'autres environnements n'ont pas été vérifiées.
Il peut y avoir un manque d'explications détaillées sur la manière dont VLM et LLM sont intégrés et sur le processus de réglage fin.
Il y a un manque d’examen des applications du monde réel.
👍