Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving

Created by
  • Haebom

저자

Xueyi Liu, Zuodong Zhong, Yuxin Guo, Yun-Fu Liu, Zhiguo Su, Qichao Zhang, Junli Wang, Yinfeng Gao, Yupeng Zheng, Qiao Lin, Huiyong Chen, Dongbin Zhao

개요

ReasonPlan은 자율 주행을 위한 새로운 다중 모달 대규모 언어 모델(MLLM) 미세 조정 프레임워크입니다. 자기 지도 학습 기반의 다음 장면 예측 과제와 지도 학습 기반의 의사 결정 체인-오브-토크 과정을 통해 전체적인 추론을 수행하도록 설계되었습니다. 이러한 이중 메커니즘은 시각적 표현을 실행 가능한 주행 상황과 정렬하고, 해석 가능하고 인과적으로 근거한 의사 결정을 촉진합니다. 21만 개의 다양하고 고품질 샘플로 구성된 계획 중심 의사 결정 추론 데이터셋(PDR)을 활용하여 Bench2Drive 벤치마크에서 기존 E2E 모방 학습 방법보다 19% L2 및 16.1% 운전 점수 향상을 달성했습니다. 또한, ReasonPlan은 DOS 벤치마크에서 강력한 제로샷 일반화 성능을 보여주며, 제로샷 엣지 케이스 처리에 대한 적응력을 강조합니다. 코드와 데이터셋은 https://github.com/Liuxueyi/ReasonPlan 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
MLLM을 폐쇄 루프 자율 주행 시스템에 적용하는 새로운 프레임워크 제시.
자기 지도 학습과 지도 학습의 이중 메커니즘을 통해 해석 가능하고 인과적으로 근거한 의사 결정 촉진.
기존 E2E 모방 학습 방법 대비 성능 향상 (Bench2Drive 벤치마크 기준).
제로샷 일반화 성능 우수 (DOS 벤치마크 기준).
새로운 계획 중심 의사 결정 추론 데이터셋(PDR) 공개.
한계점:
논문에서 구체적인 한계점 언급이 부족함. 실제 도로 환경에서의 성능 검증 결과 부재 가능성. 다른 MLLM 기반 방법과의 비교 분석이 더 필요할 수 있음.
👍