본 논문은 부분 관측 및 실세계 복잡성 하에서의 의사결정에 어려움을 겪는 자율 주행(AD) 시스템의 한계를 극복하기 위해, 비전-언어 모델(VLMs)의 추론 능력을 활용하는 새로운 프레임워크인 VERDI를 제안합니다. 기존 VLMs 기반 자율 주행 방법들의 높은 메모리 사용량과 느린 추론 속도 문제를 해결하기 위해, VERDI는 학습 단계에서 VLMs의 추론 과정과 상식적 지식을 AD 스택에 증류하는 방식을 채택합니다. 이는 지각, 예측, 계획 단계의 중간 모듈 출력을 VLMs가 생성한 텍스트 특징과 정렬함으로써 달성됩니다. NuScenes 데이터셋을 이용한 실험 결과, VERDI는 기존 e2e 방법들보다 $\ell_{2}$ 거리 기준 10% 향상된 성능을 보이며, 높은 추론 속도를 유지하는 것으로 나타났습니다.