[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Plancraft : un ensemble de données d'évaluation pour la planification avec des agents LLM

Created by
  • Haebom

Auteur

Gautier Dagan, Frank Keller, Alex Lascarides

Contour

Plancraft est un jeu de données d'évaluation multimodale pour les agents LLM. Il fournit une interface textuelle et multimodale basée sur l'interface graphique de création Minecraft. Il inclut le wiki Minecraft pour l'utilisation des outils et l'évaluation de la génération augmentée de récupération (RAG), ainsi qu'un planificateur personnalisé et un Oracle Retriever pour analyser divers composants des architectures d'agents modernes. Il inclut également un sous-ensemble d'exemples intentionnellement insolubles pour l'évaluation décisionnelle, fournissant des tâches réalistes qui nécessitent que l'agent non seulement les exécute, mais aussi qu'il détermine si elles sont résolubles. Nous comparons les LLM open source et les LLM fermés et leurs performances et leur efficacité à celles des planificateurs personnalisés. Globalement, nous constatons que les LLM et les VLM rencontrent des difficultés face aux problèmes de planification présentés dans Plancraft et proposons des suggestions pour améliorer leurs capacités.

Takeaways, Limitations

Takeaways: Nous présentons un nouveau benchmark pour évaluer les capacités de planification et de prise de décision de LLM et VLM sur des problèmes réalistes. Nous présentons des pistes pour améliorer l'architecture de l'agent LLM en évaluant les performances de RAG à l'aide du wiki Minecraft et en le comparant à un planificateur artisanal. L'inclusion de problèmes insolubles nous permet d'évaluer la capacité de jugement de l'agent ainsi que sa capacité à résoudre des problèmes.
Limitations : Des recherches supplémentaires sont nécessaires sur la généralisabilité de l'environnement Minecraft et des tâches utilisées dans le benchmark actuel. La taille et la diversité de l'ensemble de données d'évaluation peuvent être limitées. Des résultats d'évaluation limités à un environnement de jeu spécifique peuvent rendre difficile leur généralisation à d'autres domaines.
👍