본 논문은 자율주행에서 강화학습의 중요성을 강조하며, 자율주행의 복잡성과 상충하는 목표들로 인해 적절한 보상 함수 설계의 어려움을 지적합니다. 기존 연구에서 제안된 다양한 보상 함수들을 안전, 편안함, 진행, 교통 규칙 준수의 네 가지 범주로 분류하고 평가하여 그 한계점을 분석합니다. 특히, 목표들의 집계 방식, 주행 상황에 대한 무관심, 그리고 보상 범주들의 부적절한 정의 및 표준화 부족을 문제점으로 제시합니다. 마지막으로, 보상 함수 검증 프레임워크와 상황 인식 및 갈등 해소 기능을 갖춘 구조화된 보상 함수 등 향후 연구 방향을 제시합니다.