본 논문은 과거 관찰 및 행동을 기반으로 환경 역학을 시뮬레이션하는 생성 모델인 세계 모델의 롤아웃을 평가하는 데 초점을 맞추고 있다. 특히, 액션 정렬 및 의미 일관성에 대한 미세하고 시간적으로 정확한 평가를 위해, 시각-언어 모델(VLM)을 활용한 자동 평가 도구인 UNIVERSE를 제안한다. UNIVERSE는 액션 인식 및 캐릭터 인식을 포함한 두 가지 인식 작업에 대해 이진, 객관식 및 개방형 형식을 사용하여 평가하며, 데이터 및 계산 제약 조건 하에서 다양한 적응 방법을 실험한다. 5,154 GPU-day 이상을 사용한 광범위한 실험을 통해 UNIVERSE는 작업별 체크포인트와 동등한 성능을 달성했으며, 인간 연구를 통해 인간의 판단과 높은 일치도를 보였다.