EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving
Created by
Haebom
저자
Siwen Jiao, Kangan Qian, Hao Ye, Yang Zhong, Ziang Luo, Sicong Jiang, Zilin Huang, Yangyi Fang, Jinyu Miao, Zheng Fu, Yunlong Wang, Kun Jiang, Diange Yang, Rui Fan, Baoyun Peng
개요
EvaDrive는 자율 주행에서 인간과 같은 반복적인 의사결정을 달성하기 위한 새로운 다목적 강화 학습 프레임워크입니다. 기존의 생성-평가 프레임워크의 한계를 극복하기 위해, 적대적 최적화를 통해 궤적 생성과 평가 간의 폐쇄 루프 공진화를 구축합니다. 계층적 생성기는 자기회귀적 의도 모델링과 확산 기반 세련화를 결합하여 후보 경로를 제안하고, 훈련 가능한 다목적 평가자는 다양한 선호도 구조를 단일 스칼라로 축소하지 않고 명시적으로 보존합니다. 파레토 프런티어 선택 메커니즘에 의해 안내되는 이 적대적 상호 작용은 반복적인 다중 라운드 개선을 가능하게 하여, 국소적 최적점을 벗어나면서 궤적 다양성을 유지합니다. NAVSIM 및 Bench2Drive 벤치마크에서 SOTA 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
기존 강화학습 방식의 스칼라 보상으로 인한 스칼라화 편향 문제 해결.
◦
다목적 평가자를 통해 다양한 선호도 구조를 명시적으로 유지.
◦
적대적 최적화를 통한 궤적 생성과 평가의 폐쇄 루프 공진화 구현.
◦
다양한 주행 스타일 생성 (외부 선호도 데이터 없이 동적 가중치 부여).
◦
NAVSIM 및 Bench2Drive 벤치마크에서 SOTA 성능 달성.
•
한계점:
◦
논문에서는 구체적인 한계점이 명시적으로 언급되지 않음. 실제 구현 및 적용 시 발생할 수 있는 계산 비용 및 일반화 성능 저하 등의 문제는 추가적인 연구가 필요할 것으로 예상됨.