VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving

작성자

Haebom

카테고리

Empty

저자

Rui Zhao, Haofeng Hu, Zhenhai Gao, Jiaqiao Liu, Gao Fei

💡 개요

본 논문은 기존 End-to-End 자율 주행 모델의 장기적인 일반화 성능 부족 문제를 해결하기 위해 검색 증강(Retrieval-Augmented) 방식을 도입한 VLADriver-RAG 프레임워크를 제안한다. 제안하는 방법론은 시공간적 의미론적 그래프를 통해 감각 입력을 추상화하여 시각적 노이즈를 필터링하고, 그래프 동적 시간 왜곡(Graph-DTW) 메트릭을 활용한 시나리오 정렬 임베딩 모델로 검색 관련성을 높인다. 이를 통해 명시적이고 구조화된 과거 지식을 기반으로 정밀하고 분리된 궤적을 생성하여 Bench2Drive 벤치마크에서 89.12의 Driving Score로 새로운 최첨단 성능을 달성하였다.

🔑 시사점 및 한계

•

명시적이고 구조화된 과거 지식 활용을 통해 장기적인 일반화 성능 향상 가능성을 제시합니다.

•

시각적 노이즈 필터링 및 의미론적 그래프 기반의 검색 관련성 강화 기술은 복잡한 주행 환경에서의 자율 주행 시스템 성능 개선에 기여합니다.

•

고정밀 궤적 생성 및 disentangled trajectory synthesis는 보다 안전하고 예측 가능한 자율 주행 시스템 구현에 중요한 역할을 할 것입니다.

•

제안된 방법론이 다양한 실제 주행 시나리오 및 돌발 상황에 대해 얼마나 강건한지 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage