Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

Created by
  • Haebom

저자

Anqing Jiang, Yu Gao, Zhigang Sun, Yiru Wang, Jijun Wang, Jinghao Chai, Qian Cao, Yuweng Heng, Hao Jiang, Zongzheng Zhang, Xianda Guo, Hao Sun, Hao Zhao

개요

본 논문은 종단간 자율주행의 한계점인 고가의 BEV 계산, 행동 다양성, 복잡한 실제 시나리오에서의 비최적 의사결정 문제를 해결하기 위해, Vision-Language Model (VLM)을 활용한 새로운 하이브리드 sparse-dense diffusion policy, Diff-VLA를 제안합니다. Diff-VLA는 효율적인 다중 모드 주행 행동을 위한 sparse diffusion 표현을 탐구하고, 에이전트, 지도 인스턴스, VLM 출력 간의 심층적인 상호작용을 통해 주행 경로 생성 안내를 개선하여 VLM의 주행 의사결정 효과를 재고합니다. Autonomous Grand Challenge 2025에서 우수한 성능(45.0 PDMS)을 달성했습니다.

시사점, 한계점

시사점:
VLM을 활용한 효율적인 다중 모드 주행 행동 표현 및 주행 의사결정 개선 가능성 제시.
Sparse diffusion representation을 통해 계산 비용 절감.
Autonomous Grand Challenge 2025에서의 우수한 성능 검증.
한계점:
논문에서 제시된 PDMS 점수 외에 다른 평가 지표에 대한 결과 제시 부족.
제안된 방법의 일반화 성능 및 다양한 환경에 대한 적용 가능성에 대한 추가적인 분석 필요.
실제 도로 환경에서의 추가적인 테스트 및 검증 필요.
👍