기존 비전-언어-행동 모델은 언어를 주로 장면 설명이나 추론에 활용했지만, 사용자의 다양한 지시를 따르는 데 한계가 있었습니다. 본 논문은 10만 개 규모의 다양한 운전 지시와 궤적을 포함하는 대규모 데이터셋(InstructScene)을 구축하고, 이를 활용하여 비전-언어-세계-행동 통합 모델인 Vega를 제안합니다. Vega는 자기회귀 모델로 시각 및 언어 입력을 처리하고 확산 모델로 미래 예측 및 궤적 생성을 수행하여, 기존 방법보다 우수한 계획 성능과 뛰어난 지시 수행 능력을 보여줍니다.