Bài báo này đề xuất một phương pháp mới để giải quyết vấn đề các phương pháp dựa trên RL hiện có kém hiệu quả hơn các phương pháp dựa trên học mô phỏng do vấn đề hội tụ của RL và khó khăn trong việc thiết kế hàm thưởng trong quy hoạch đường đi cho xe tự hành đô thị dựa trên học tăng cường (RL). Để khắc phục những hạn chế của các phương pháp hiện có, bao gồm quy hoạch một bước và giả định hàm thưởng tuyến tính, chúng tôi tích hợp RL và học mô phỏng để cho phép quy hoạch nhiều bước, đồng thời phát triển một hàm thưởng Bayesian dựa trên biến đổi để cung cấp tín hiệu thưởng hiệu quả trong môi trường đô thị. Ngoài ra, chúng tôi đề xuất một khuôn khổ quy hoạch đường đi dựa trên kết hợp để cải thiện tính an toàn và khả năng diễn giải. Kết quả thử nghiệm sử dụng tập dữ liệu nuPlan cho thấy phương pháp đề xuất vượt trội hơn các phương pháp hiện có.