자율주행 트럭의 전술적 의사 결정을 위한 딥 강화 학습 프레임워크를 개발했습니다. 특히 고속도로 환경에서 적응형 순항 제어(ACC) 및 차선 변경 기동에 초점을 맞췄습니다. 강화 학습 에이전트와 물리적 모델 기반의 하위 레벨 제어기 사이에서 상위 레벨 의사 결정 프로세스와 하위 레벨 제어 동작을 분리하는 것이 유리함을 보였습니다. 또한, 총 운영 비용(TCOP)을 기반으로 한 현실적이고 다중 목표 보상 함수를 사용하여 성능을 최적화하는 연구를 수행했습니다. 보상 구성 요소에 가중치를 추가하고, 보상 구성 요소를 정규화하며, 커리큘럼 학습 기법을 사용하는 다양한 접근 방식을 통해 연구를 진행했습니다.