Cet article présente PillagerBench, un nouveau framework d'évaluation de systèmes multi-agents basé sur Minecraft. PillagerBench fournit une API extensible, des tests multi-tours et un adversaire intégré basé sur des règles pour évaluer les systèmes multi-agents dans des environnements de compétition équipe contre équipe en temps réel, permettant des comparaisons équitables et reproductibles. Nous présentons également TactiCrafter, un système multi-agents basé sur le LLM qui favorise le travail d'équipe grâce à des tactiques compréhensibles par l'humain, apprend les relations causales et s'adapte aux stratégies adverses. Les résultats expérimentaux démontrent que TactiCrafter surpasse les méthodes de base et démontre un apprentissage adaptatif par auto-apprentissage. Enfin, nous analysons le processus d'apprentissage et l'évolution stratégique à travers plusieurs épisodes de jeu, et nous rendons PillagerBench open source pour encourager la recherche sur l'IA multi-agents en environnements compétitifs.