자율 주행을 위한 궤적 계획 방법 제시. 이미지 기반 컨텍스트 임베딩을 학습하여 운동 예측 프레임워크 및 계획 기반 의도 입력과 정렬. ViT 인코더를 사용하여 원시 이미지와 과거 운동 상태를 입력으로 컨텍스트 임베딩 생성 (MTR (Motion Transformer) 인코더에서 영감). MTR-VP (Motion Transformer for Vision-based Planning)라는 접근 방식을 사용하며, MTR 디코더의 학습 가능한 의도 쿼리 대신 의도와 컨텍스트 임베딩 간의 교차 주의를 사용. Waymo End-to-End Driving Dataset에서 평가.