본 논문은 로봇 제어 정책 평가의 어려움을 해결하기 위해 World-model-based Policy Evaluation (WPE) 방법을 제안합니다. 실제 환경에서의 테스트 비용과 시뮬레이션의 부정확성 문제를 해결하고자, 행동 조건부 비디오 생성 모델을 실제 환경의 대리 모델로 활용합니다. 오차 누적을 줄이기 위해 Blockwise-Autoregressive Diffusion Transformer 기반 추론 기법을 제시하고, 생성 비디오와 실제 비디오 간의 일치도를 평가 지표로 사용합니다. 비전-언어 모델(VLM)을 보상 함수로 사용하여 WPE를 통해 정책 평가를 수행하며, WPE가 분포 내 행동에 대해서는 정책 가치를 과소평가하고, 분포 외 행동에 대해서는 과대평가하는 경향을 발견했습니다. 하지만 상대적인 정책 순위는 유지하는 것을 확인했습니다. 실제 로봇 움직임 모방에는 높은 정확도를 보였으나, 사실적인 물체 상호작용 모방에는 어려움이 있었습니다. 결론적으로, WPE는 실제 배포 전 로봇 정책 평가의 출발점으로 활용될 수 있음을 보여줍니다.