Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DriveMRP: Enhancing Vision-Language Models with Synthetic Motion Data for Motion Risk Prediction

Created by
  • Haebom

저자

Zhiyi Hou, Enhui Ma, Fang Li, Zhiyi Lai, Kalok Ho, Zhanqian Wu, Lijun Zhou, Long Chen, Chitian Sun, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Kaicheng Yu

개요

본 논문은 자율 주행에서의 장기 미래 주행 안전 예측의 어려움을 해결하기 위해, 고위험 주행 데이터를 합성하여 Vision-Language Model (VLM)의 성능을 향상시키는 방법을 제시한다. Bird's-Eye View (BEV) 기반 모션 시뮬레이션을 통해 자차, 다른 차량, 환경 세 가지 측면에서 위험을 모델링하여 DriveMRP-10K라는 고위험 주행 데이터셋을 생성한다. 또한, VLM에 독립적인 모션 위험 추정 프레임워크인 DriveMRP-Agent를 제안하는데, 이는 전역 정보, 자차 관점, 궤적 예측을 위한 새로운 정보 주입 전략을 포함한다. 실험 결과, DriveMRP-10K로 미세 조정된 DriveMRP-Agent는 여러 VLM 기준 모델의 모션 위험 예측 성능을 크게 향상시켜 사고 인식 정확도를 27.13%에서 88.03%로 높였다. 실제 고위험 주행 데이터셋에 대한 제로샷 평가에서도 기준 모델의 29.42%에서 68.50%로 정확도가 향상되어 실제 환경에서의 우수한 일반화 성능을 보였다.

시사점, 한계점

시사점:
고위험 주행 데이터 합성을 통한 VLM 기반 자율 주행 안전 예측 성능 향상 가능성 제시.
BEV 기반 모션 시뮬레이션 및 VLM-agnostic 프레임워크인 DriveMRP-Agent의 효과성 증명.
제로샷 평가에서의 높은 성능 향상을 통해 실제 환경 적용 가능성 확인.
사고 인식 정확도의 괄목할 만한 향상 (27.13% → 88.03%).
한계점:
DriveMRP-10K 데이터셋의 구성 및 품질에 대한 자세한 설명 부족.
사용된 VLM 기준 모델의 종류 및 특징에 대한 명확한 설명 부족.
in-house real-world high-risk motion dataset의 상세한 정보 부족 (데이터 크기, 다양성 등).
다양한 환경 및 상황에 대한 일반화 성능에 대한 추가적인 검증 필요.
👍