본 논문은 종단간 자율주행의 한계점인 고가의 BEV 계산, 행동 다양성, 복잡한 실제 시나리오에서의 비최적 의사결정 문제를 해결하기 위해, Vision-Language Model (VLM)을 활용한 새로운 하이브리드 sparse-dense diffusion policy, Diff-VLA를 제안합니다. Diff-VLA는 효율적인 다중 모드 주행 행동을 위한 sparse diffusion 표현을 탐구하고, 에이전트, 지도 인스턴스, VLM 출력 간의 심층적인 상호작용을 통해 주행 경로 생성 안내를 개선하여 VLM의 주행 의사결정 효과를 재고합니다. Autonomous Grand Challenge 2025에서 우수한 성능(45.0 PDMS)을 달성했습니다.
시사점, 한계점
•
시사점:
◦
VLM을 활용한 효율적인 다중 모드 주행 행동 표현 및 주행 의사결정 개선 가능성 제시.
◦
Sparse diffusion representation을 통해 계산 비용 절감.
◦
Autonomous Grand Challenge 2025에서의 우수한 성능 검증.
•
한계점:
◦
논문에서 제시된 PDMS 점수 외에 다른 평가 지표에 대한 결과 제시 부족.
◦
제안된 방법의 일반화 성능 및 다양한 환경에 대한 적용 가능성에 대한 추가적인 분석 필요.