Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving

Created by

Haebom

저자

Zhexi Lian, Haoran Wang, Xuerun Yan, Weimeng Lin, Xianhong Zhang, Yongyu Chen, Jia Hu

💡 개요

본 논문은 기존 자율주행 End-to-end 학습 방식이 모방 학습(IL)에만 의존하여 인간 시연의 질에 한계를 보이는 문제를 해결하기 위해, 모방 학습과 강화 학습(RL)을 병렬적으로 협력 최적화하는 PaIR-Drive 프레임워크를 제안합니다. PaIR-Drive는 IL과 RL을 분리된 병렬 구조로 둠으로써 동시 학습을 가능하게 하며, 이를 통해 기존 순차적 파인튜닝 방식의 정책 드리프트 및 성능 한계를 극복합니다. 또한, RL 분기에서 트리 구조의 궤적 신경 샘플러를 사용하여 탐색 능력을 강화하고, 추론 시 IL 정책을 활용하여 성능을 향상시킵니다.

🔑 시사점 및 한계

•

End-to-end 자율주행에서 모방 학습과 강화 학습의 협력적 병렬 학습을 통해 기존 순차적 파인튜닝의 단점을 효과적으로 해결할 수 있습니다.

•

제안된 PaIR-Drive 프레임워크는 별도의 RL 재학습 없이 새로운 IL 정책을 적용할 수 있으며, RL을 통해 인간 전문가의 잠재적으로 최적화되지 않은 행동까지 교정하는 성능을 보여줍니다.

•

트랜스퓨저 및 디퓨전 드라이브 기반 모델에서 경쟁력 있는 성능을 달성했으며, 고품질 궤적 생성을 위한 효과적인 탐색 능력을 입증했습니다.

•

한계점으로는 제안된 트리 구조 궤적 신경 샘플러의 복잡성과 추가적인 계산 비용, 그리고 실제 복잡하고 예측 불가능한 실제 도로 환경에서의 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage