Dans cet article, nous proposons un cadre d'apprentissage par renforcement hiérarchique coopératif multi-agents (CCMA) pour pallier les limites de l'apprentissage par renforcement (RL) conventionnel, telles que la difficulté de reproduire des comportements humains, la généralisation efficace dans des environnements multi-agents et les problèmes d'interprétabilité. Le CCMA intègre l'apprentissage par renforcement pour les interactions entre agents individuels, un LLM affiné pour la coopération locale, une fonction de récompense pour l'optimisation globale et un mécanisme de génération augmenté par la recherche pour l'optimisation dynamique des décisions dans des scénarios de conduite complexes. Les résultats expérimentaux montrent que le CCMA améliore significativement les performances aux niveaux micro et macro dans des environnements de conduite complexes par rapport aux méthodes d'apprentissage par renforcement conventionnelles.