Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VIPER : Perception visuelle et raisonnement explicable pour la prise de décision séquentielle

Created by
  • Haebom

Auteur

Mohamed Salim Aissi, Clémence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

Contour

Cet article présente VIPER, un nouveau cadre multimodal pour la planification guidée visuellement. VIPER intègre la perception basée sur un modèle vision-langage (VLM) et l'inférence basée sur un modèle de langage large (LLM). Il utilise un pipeline modulaire où un VLM figé génère des descriptions textuelles d'observations d'images, qui sont ensuite utilisées par une politique LLM pour prédire les actions en fonction de l'objectif de la tâche. La réplication d'actions et l'apprentissage par renforcement permettent d'affiner le module d'inférence afin d'améliorer les capacités décisionnelles de l'agent. Les résultats expérimentaux obtenus sur le benchmark ALFWorld démontrent que VIPER surpasse significativement les planificateurs visuels de pointe et comble l'écart avec les oracles purement textuels. En exploitant le texte comme représentation intermédiaire, VIPER améliore l'explicabilité et ouvre la voie à une analyse fine des composantes perception et inférence.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui résout efficacement les problèmes de planification visuellement dirigée en intégrant VLM et LLM.
Utiliser le texte comme représentation intermédiaire pour améliorer l’explicabilité des modèles et faciliter l’analyse des processus de perception/inférence.
Amélioration des performances par rapport aux modèles précédents les plus performants dans le benchmark ALFWorld.
Améliorer la prise de décision des agents grâce à la réplication des actions et à l'apprentissage par renforcement.
Limitations:
En raison de la dépendance au benchmark ALFWorld, les performances de généralisation dans d'autres environnements nécessitent une vérification supplémentaire.
Des recherches supplémentaires sont nécessaires pour résoudre les problèmes potentiels de dégradation des performances et d’efficacité qui peuvent survenir lors de l’intégration de VLM et LLM.
Il existe toujours un écart de performance avec Oracle basé sur du texte pur.
👍