본 논문은 자율 주행 환경에서 과조향(oversteer) 상황에서의 안전한 제어와 장애물 회피를 동시에 수행하는 새로운 end-to-end (E2E) 접근 방식을 제시합니다. 기존의 E2E 기법들(모방 학습, 강화 학습, 혼합 학습)은 최적의 데모 데이터나 방대한 경험 데이터를 필요로 하지만, 과조향 상황에서의 완벽한 데모 데이터 확보는 어렵습니다. 따라서 본 논문에서는 부족한 데모 데이터로부터 효과적으로 학습하고 새로운 상황에 빠르게 적응하는 새로운 혼합 학습 알고리즘인 Q-Compared Soft Actor-Critic (QC-SAC)을 제안합니다. 미끄러운 노면에서 갑작스러운 과조향이 발생하고 앞에 무작위로 배치된 장애물을 피해야 하는 실제 운전 훈련에서 영감을 받은 벤치마크를 통해 QC-SAC을 평가한 결과, 기존의 최첨단 모방 학습, 강화 학습, 혼합 학습 기법들을 능가하는 성능을 보이며, 장애물 회피 기능을 갖춘 안전한 자율 과조향 제어를 세계 최초로 달성했습니다.