본 논문은 고성능 종단 간 자율 주행(E2EAD)을 위해 완전한 장면 모델링이 필요하다는 기존의 가설에 도전합니다. 계산 집약적인 미래 장면 생성이나 마르코프 가정을 따르는 비전-언어-행동(VLA) 시스템 대신, 최소한의 의미론적으로 풍부한 토큰 세트만으로 효과적인 계획이 가능하다는 것을 보여줍니다. nuPlan 벤치마크(720개 시나리오, 11,000개 이상의 샘플)를 사용한 실험을 통해, 미래 예측 없이도 Sparse representation이 0.548m의 ADE를 달성하여 기존 방법들을 능가하며, 예측된 미래 토큰을 기반으로 궤적 디코딩을 수행하면 ADE가 0.479m로 감소하여 현재 최고 성능의 기반선보다 12.6% 향상됨을 확인했습니다. 또한 명시적인 재구성 손실은 성능에 도움이 되지 않음을 발견했습니다. 모델은 고정된 타임스탬프에 엄격하게 정렬되기보다는 작업 관련 의미론에 적응적으로 주의를 기울이는 "시간적 모호성"이 나타나, 불확실성 속에서 계획을 세우는 데 인지적 이점을 제공합니다.