Trong bài báo này, chúng tôi đề xuất một phương pháp khen thưởng phân biệt dựa trên hệ thống chuyển đổi trạng thái ổn định để giải quyết vấn đề suy giảm hiệu quả mẫu trong quá trình tối ưu hóa chiến lược lái xe hợp tác nhiều phương tiện bằng cách sử dụng học tăng cường (RL). Bằng cách tích hợp thông tin về độ dốc chuyển đổi trạng thái vào thiết kế phần thưởng thông qua phân tích đặc điểm luồng giao thông, chúng tôi tối ưu hóa việc lựa chọn hành động và học chính sách trong quá trình ra quyết định hợp tác nhiều phương tiện. Hiệu suất của phương pháp được đề xuất được kiểm chứng bằng các thuật toán RL như MAPPO, MADQN và QMIX cùng nhiều môi trường tỷ lệ xe tự hành khác nhau. Kết quả là, tốc độ hội tụ học tập được cải thiện đáng kể và vượt trội hơn các phương pháp khen thưởng tập trung hiện có về hiệu quả giao thông, an toàn và tính hợp lý về hành vi. Ngoài ra, phương pháp này còn cho thấy khả năng mở rộng và thích ứng với môi trường mạnh mẽ, gợi ý một phương pháp mới cho việc ra quyết định hợp tác nhiều tác nhân trong môi trường giao thông phức tạp.