자율 주행 분야에서 데이터와 모델 규모 확장을 통한 지속 가능한 성능 향상은 여전히 해결해야 할 과제이다. 본 논문은 자기 회귀 모델이 계획 작업에서 데이터 확장 효율성을 보여주었지만, 자율 주행 시나리오에서 희소한 지도 학습과 약한 제약으로 인해 발생하는 문제를 해결하고자 한다. 이를 위해, BEV(Bird's-Eye View) 의미론과 에고(ego) 궤적을 함께 예측하는 이산 토큰 자기 회귀 계획 모델인 DAP(Discrete-token Autoregressive Planner)를 제안한다. DAP는 포괄적인 표현 학습을 강화하고 예측된 동역학이 에고 움직임을 직접 제어하도록 한다. 또한, 강화 학습 기반 미세 조정을 통해 지도 학습된 행동 복제(behavior cloning) 사전 정보를 유지하면서 보상 기반 개선을 추가한다. 160M 매개변수 규모의 DAP는 open-loop 지표에서 최고 성능을 달성했으며, NAVSIM 벤치마크에서 경쟁력 있는 closed-loop 결과를 보여주었다.