본 논문은 자율 주행에서의 장기 미래 주행 안전 예측의 어려움을 해결하기 위해, 고위험 주행 데이터를 합성하여 Vision-Language Model (VLM)의 성능을 향상시키는 방법을 제시한다. Bird's-Eye View (BEV) 기반 모션 시뮬레이션을 통해 자차, 다른 차량, 환경 세 가지 측면에서 위험을 모델링하여 DriveMRP-10K라는 고위험 주행 데이터셋을 생성한다. 또한, VLM에 독립적인 모션 위험 추정 프레임워크인 DriveMRP-Agent를 제안하는데, 이는 전역 정보, 자차 관점, 궤적 예측을 위한 새로운 정보 주입 전략을 포함한다. 실험 결과, DriveMRP-10K로 미세 조정된 DriveMRP-Agent는 여러 VLM 기준 모델의 모션 위험 예측 성능을 크게 향상시켜 사고 인식 정확도를 27.13%에서 88.03%로 높였다. 실제 고위험 주행 데이터셋에 대한 제로샷 평가에서도 기준 모델의 29.42%에서 68.50%로 정확도가 향상되어 실제 환경에서의 우수한 일반화 성능을 보였다.
시사점, 한계점
•
시사점:
◦
고위험 주행 데이터 합성을 통한 VLM 기반 자율 주행 안전 예측 성능 향상 가능성 제시.
◦
BEV 기반 모션 시뮬레이션 및 VLM-agnostic 프레임워크인 DriveMRP-Agent의 효과성 증명.
◦
제로샷 평가에서의 높은 성능 향상을 통해 실제 환경 적용 가능성 확인.
◦
사고 인식 정확도의 괄목할 만한 향상 (27.13% → 88.03%).
•
한계점:
◦
DriveMRP-10K 데이터셋의 구성 및 품질에 대한 자세한 설명 부족.
◦
사용된 VLM 기준 모델의 종류 및 특징에 대한 명확한 설명 부족.
◦
in-house real-world high-risk motion dataset의 상세한 정보 부족 (데이터 크기, 다양성 등).