본 논문은 종단간(E2E) 자율 주행 모델이 폐쇄 루프 환경에서 발생하는 오류 누적 및 일반화 성능 저하 문제를 해결하기 위해, 사전 훈련된 E2E 주행 에이전트의 견고성과 안전성을 향상시키는 일반적인 프레임워크인 Model-based Policy Adaptation (MPA)을 제안합니다. MPA는 기하학적으로 일관된 시뮬레이션 엔진을 사용하여 다양한 반사실적 궤적을 생성하고, 확산 기반 정책 어댑터를 훈련하여 기본 정책의 예측을 개선하며, 다단계 Q 값 모델을 통해 장기적인 결과를 평가합니다. 추론 시 어댑터는 여러 궤적 후보를 제안하고, Q 값 모델은 예상 효용이 가장 높은 궤적을 선택합니다. nuScenes 벤치마크를 활용한 실험에서 MPA는 성능을 크게 향상시켰습니다.