본 논문은 자율 주행을 위한 Vision-Language-Action (VLA) 모델의 두 가지 주요 과제, 즉 개방 루프 설정에서의 모방 학습 기반의 기존 VLA 아키텍처의 제한적인 성능과 고충실도 센서 시뮬레이션에 크게 의존하는 폐쇄 루프 학습의 어려움을 해결하기 위해 IRL-VLA를 제시합니다. IRL-VLA는 역강화학습(IRL) 기반의 경량 보상 세계 모델과 자체 구축 VLA 접근 방식을 결합한 폐쇄 루프 강화학습 프레임워크입니다. 세 단계로 구성된 이 프레임워크는 우선 모방 학습을 통해 VLA 정책을 사전 훈련하고, 두 번째 단계에서 IRL을 통해 경량 보상 세계 모델을 구축하여 효율적인 폐쇄 루프 보상 계산을 가능하게 합니다. 마지막으로 PPO(Proximal Policy Optimization)를 이용한 특수 보상 세계 모델 안내 강화 학습을 설계하여 안전, 편안함, 교통 효율을 효과적으로 균형 있게 조정합니다. NAVSIM v2 종단 간 주행 벤치마크에서 최첨단 성능을 달성했으며, CVPR2025 자율 주행 그랜드 챌린지에서 1위를 차지했습니다.
시사점, 한계점
•
시사점:
◦
역강화학습 기반의 경량 보상 세계 모델을 활용하여 폐쇄 루프 강화학습의 효율성을 높인 새로운 VLA 프레임워크(IRL-VLA) 제시.
◦
모방학습, 역강화학습, PPO 기반 강화학습을 결합하여 안전성, 편안성, 효율성을 균형 있게 고려한 자율 주행 성능 향상.
◦
NAVSIM v2 벤치마크 및 CVPR2025 자율 주행 그랜드 챌린지에서 우수한 성능 검증.