VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving

작성자

Haebom

카테고리

Empty

저자

Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat

💡 개요

본 논문은 자율주행의 복잡한 인간 운전 선호도를 반영하기 위해 기존의 모방 학습 방식의 한계를 극복하고자 합니다. 이를 위해 Vision-Language Model(VLM)을 활용하여 사전 학습된 모델의 주행 궤적에서 인간의 선호도 쌍을 자동 생성하고, 이를 Direct Preference Optimization(DPO) 기법으로 미세 조정하는 VL-DPO 프레임워크를 제안합니다. 실험 결과, VL-DPO는 사전 학습 모델 대비 인간 선호도 평가 점수(RFS)를 11.94% 향상시키고 평균 변위 오차(ADE)를 10.01% 감소시키는 우수한 성능을 보여주었습니다.

🔑 시사점 및 한계

•

VLM의 추론 능력을 활용하여 인간의 운전 선호도를 효과적으로 포착하고 자율주행 모델을 정렬할 수 있음을 입증했습니다.

•

별도의 인간 피드백 수집 없이도 VLM이 높은 품질의 주행 궤적 선호도 프록시 역할을 수행할 수 있습니다.

•

제안된 방법론은 Waymo Open End-to-End Driving Dataset (WOD-E2E)에 대해 검증되었으며, 다양한 환경 및 시나리오에서의 일반화 성능에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage