본 논문은 기존 최적화 기반 계획 알고리즘보다 매개변수 수동 선택이 적고 개발 속도가 빠른 머신러닝(ML) 기반 계획 알고리즘, 특히 모방 학습(IL)에 초점을 맞추고 있습니다. IL은 지도 학습 데이터로부터 직접 주행 정책을 학습하지만, 초기 상태에 대한 단순 외삽이 아닌 기본적인 주행 원리를 실제로 이해하는지 여부를 판단하는 것이 어렵다는 한계를 가지고 있습니다. 이를 해결하기 위해 본 논문은 1) 모방 학습과 강화 학습 모두를 지원하는 새로운 폐루프 시뮬레이터, 2) Waymo Open Dataset에서 파생된 인과적 벤치마크(copycat 문제의 영향을 엄격하게 평가하기 위한), 3) 순수 모방 학습의 한계를 극복하기 위한 모방 학습과 강화 학습을 통합하는 새로운 프레임워크를 제안합니다.