Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Yujin Wang, Tianyi Wang, Quanfeng Liu, Wenxian Fan, Junfeng Jiao, Christian Claudel, Yunbing Yan, Bingzhao Gao, Jianqiang Wang, Hong Chen

개요

자율 주행의 안전성 확보를 위해 정확한 단기 궤적 예측이 중요하지만, 기존의 시각-언어 모델(VLM)은 운전 장면을 정확히 이해하고 신뢰할 수 있는 궤적을 생성하는 데 어려움을 겪음. 본 논문은 이러한 문제를 해결하기 위해, 연속된 전방 주행 프레임으로부터 직접 자아(ego) 궤적을 예측하는 지식 기반 VLM 프레임워크인 KEPT를 제안. KEPT는 hard-negative mining을 사용한 자기 지도 학습 방식으로 훈련된 temporal frequency-spatial fusion (TFSF) 비디오 인코더와 k-means & HNSW 검색 증강 생성(RAG) 파이프라인을 통합. 검색된 사전 지식을 명시적인 계획 제약 조건과 함께 사고 연쇄(CoT) 프롬프트에 추가하고, 3단계 미세 조정 패러다임을 통해 VLM 백본을 정렬하여 공간 인식 및 궤적 예측 능력을 향상시킴. nuScenes 데이터셋 평가 결과, KEPT는 기준 방법 대비 최고의 open-loop 성능을 달성. KEPT의 효과를 입증하기 위해 미세 조정 단계, RAG의 Top-K 값, 다양한 검색 전략, 비전 인코더 및 VLM 백본에 대한 ablation 연구를 수행. KEPT는 자율 주행에서 신뢰할 수 있는 궤적 예측을 위한 유망하고 데이터 효율적인 방법을 제공함.

시사점, 한계점

시사점:
자율 주행을 위한 궤적 예측에서 시각-언어 모델의 성능 향상을 위한 새로운 프레임워크(KEPT) 제시.
TFSF 비디오 인코더, RAG 파이프라인, 3단계 미세 조정 등 혁신적인 방법론 도입.
nuScenes 데이터셋에서 기존 방법 대비 우수한 성능 입증.
다양한 ablation study를 통해 프레임워크의 효과 검증.
한계점:
구체적인 성능 지표 및 비교 대상에 대한 상세 정보 부족.
open-loop 성능에 대한 평가만 이루어졌으며, closed-loop 환경에서의 성능 검증 필요.
일반화 성능에 대한 추가적인 연구 및 다양한 데이터셋에서의 평가 필요.
계산 비용 및 모델 복잡성에 대한 언급 부재.
👍