Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PillagerBench : analyse comparative des agents LLM dans des environnements d'équipe Minecraft compétitifs

Created by
  • Haebom

Auteur

Olivier Schipper, Yudi Zhang, Yali Du, Mykola Pechenizkiy, Meng Fang

Contour

Cet article présente PillagerBench, un nouveau framework d'évaluation de systèmes multi-agents basé sur Minecraft. PillagerBench fournit une API extensible, des tests multi-tours et un adversaire intégré basé sur des règles pour évaluer les systèmes multi-agents dans des environnements de compétition équipe contre équipe en temps réel, permettant des comparaisons équitables et reproductibles. Nous présentons également TactiCrafter, un système multi-agents basé sur le LLM qui favorise le travail d'équipe grâce à des tactiques compréhensibles par l'humain, apprend les relations causales et s'adapte aux stratégies adverses. Les résultats expérimentaux démontrent que TactiCrafter surpasse les méthodes de base et démontre un apprentissage adaptatif par auto-apprentissage. Enfin, nous analysons le processus d'apprentissage et l'évolution stratégique à travers plusieurs épisodes de jeu, et nous rendons PillagerBench open source pour encourager la recherche sur l'IA multi-agents en environnements compétitifs.

Takeaways, Limitations

Takeaways:
Présentation de PillagerBench, un nouveau cadre d'évaluation de système multi-agent basé sur Minecraft.
Démonstration des performances supérieures et des capacités d'apprentissage adaptatif de TactiCrafter, un système multi-agents basé sur LLM.
La version open source de PillagerBench devrait stimuler la recherche sur l'IA multi-agents.
Présentation d’une stratégie visant à promouvoir le travail d’équipe en utilisant des tactiques compréhensibles par l’homme.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de PillagerBench et TactiCrafter.
En tant que système spécialisé pour l'environnement Minecraft, son évolutivité vers d'autres environnements doit être vérifiée.
La nécessité de développer des systèmes qui prennent en compte des interactions plus complexes et plus diverses.
La nécessité d'une plus grande transparence et d'une plus grande explicabilité dans les processus d'auto-apprentissage
👍