Plancraft est un jeu de données d'évaluation multimodale pour les agents LLM. Il fournit une interface textuelle et multimodale basée sur l'interface graphique de création Minecraft. Il inclut le wiki Minecraft pour l'utilisation des outils et l'évaluation de la génération augmentée de récupération (RAG), ainsi qu'un planificateur personnalisé et un Oracle Retriever pour analyser divers composants des architectures d'agents modernes. Il inclut également un sous-ensemble d'exemples intentionnellement insolubles pour l'évaluation décisionnelle, fournissant des tâches réalistes qui nécessitent que l'agent non seulement les exécute, mais aussi qu'il détermine si elles sont résolubles. Nous comparons les LLM open source et les LLM fermés et leurs performances et leur efficacité à celles des planificateurs personnalisés. Globalement, nous constatons que les LLM et les VLM rencontrent des difficultés face aux problèmes de planification présentés dans Plancraft et proposons des suggestions pour améliorer leurs capacités.