En este artículo, proponemos un método de recompensa diferenciada basado en un sistema de transición de estado estacionario para resolver el problema de la degradación de la eficiencia de la muestra en la optimización de estrategias de conducción cooperativa multivehicular mediante aprendizaje por refuerzo (RL). Al integrar la información del gradiente de transición de estado en el diseño de la recompensa mediante el análisis de las características del flujo de tráfico, optimizamos la selección de acciones y el aprendizaje de políticas en la toma de decisiones cooperativa multivehicular. El rendimiento del método propuesto se verifica utilizando algoritmos de RL como MAPPO, MADQN y QMIX, y diversos entornos de ratio de vehículos autónomos. Como resultado, la velocidad de convergencia del aprendizaje mejora significativamente y supera a los métodos de recompensa central existentes en términos de eficiencia del tráfico, seguridad y racionalidad del comportamiento. Además, muestra una alta escalabilidad y adaptabilidad al entorno, lo que sugiere un nuevo enfoque para la toma de decisiones cooperativa multiagente en entornos de tráfico complejos.