본 논문은 강화학습(RL) 기반의 도시 자율주행 경로 계획에서 RL의 수렴 문제와 보상 함수 설계의 어려움으로 인해 기존 RL 기반 방법들이 모방 학습 기반 방법들에 비해 성능이 떨어지는 문제를 해결하기 위한 새로운 방법을 제시한다. 기존 방법들의 한계인 단일 단계 계획 및 선형 보상 함수 가정 문제를 극복하기 위해, RL과 모방 학습을 통합하여 다단계 계획을 가능하게 하고, 트랜스포머 기반 베이지안 보상 함수를 개발하여 도시 환경에서 효과적인 보상 신호를 제공한다. 또한 안전성과 해석성을 높이기 위해 하이브리드 기반 경로 계획 프레임워크를 제안한다. nuPlan 데이터셋을 이용한 실험 결과, 제안된 방법이 기존 방법들보다 우수한 성능을 보임을 확인하였다.