Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

Created by
  • Haebom

저자

Anqing Jiang, Yu Gao, Zhigang Sun, Yiru Wang, Jijun Wang, Jinghao Chai, Qian Cao, Yuweng Heng, Hao Jiang, Zongzheng Zhang, Xianda Guo, Hao Sun, Hao Zhao

개요

본 논문은 종단간 자율주행의 효율성 및 성능 향상을 위한 새로운 하이브리드 희소-밀집 확산 정책인 Diff-VLA를 제안합니다. 기존 종단간 자율주행 방법들이 BEV 계산 비용, 행동 다양성, 복잡한 실제 상황에서의 비최적 의사결정 등의 문제점을 갖는다는 점을 지적하며, 이를 해결하기 위해 시각-언어 모델(VLM)을 활용한 희소 확산 표현을 도입합니다. 에이전트, 지도 인스턴스, VLM 출력 간의 심층적인 상호작용을 통해 주행 경로 생성 안내를 개선하여, 2025 자율주행 그랜드 챌린지에서 45.0 PDMS라는 우수한 성능을 달성했습니다.

시사점, 한계점

시사점:
종단간 자율주행의 효율성을 높이는 새로운 희소-밀집 확산 정책 제안.
VLM을 활용하여 다양한 주행 행동과 복잡한 상황에 대한 대처 능력 향상.
2025 자율주행 그랜드 챌린지에서 우수한 성능 검증 (45.0 PDMS).
에이전트, 지도, VLM 간의 심층 상호작용을 통한 주행 경로 생성 개선.
한계점:
논문에서 제시된 PDMS 점수 외에 다른 평가 지표에 대한 결과 제시 부족.
제안된 방법의 일반화 성능 및 다양한 환경에 대한 적용 가능성에 대한 추가적인 분석 필요.
VLM 의존도가 높아 VLM 성능에 따라 결과가 크게 영향 받을 수 있음.
실제 도로 환경에서의 장기간 테스트 결과 부재.
👍