En este artículo, proponemos un marco multiagente cooperativo jerárquico (CCMA) para abordar las limitaciones del aprendizaje por refuerzo (AR) convencional, como la dificultad para replicar comportamientos similares a los humanos, la generalización efectiva en entornos multiagente y los problemas de interpretabilidad. CCMA integra el AR para interacciones individuales entre agentes, un LLM optimizado para la cooperación local, una función de recompensa para la optimización global y un mecanismo de generación con búsqueda aumentada para la optimización dinámica de decisiones en escenarios de conducción complejos. Los resultados experimentales muestran que CCMA mejora significativamente el rendimiento a nivel micro y macro en entornos de conducción complejos, en comparación con los métodos de AR convencionales.