본 논문은 모델 기반 강화 학습(MBRL)에서 확산 월드 모델을 이용한 에이전트가 Atari100k 벤치마크에서 초인적 성능을 달성했지만, 특정 과제에서는 극적인 성능 차이를 보이는 점을 지적합니다. 특히 픽셀 기반 에이전트에서 이러한 비대칭성이 두드러지는데, 이는 월드 모델 목표로 학습된 시간적 구조가 부족하기 때문이라고 가정합니다. 이를 해결하기 위해 자기 일관성 목표 함수로 학습되는 새로운 잠재 확산 월드 모델인 JEDI를 제안합니다. JEDI는 인간 최적 과제에서 최첨단 모델을 능가하고, 기존 픽셀 기반 확산 모델보다 3배 빠르고 메모리 사용량이 43% 적습니다. 본 연구는 Atari100k에서 초인적 성능의 의미를 재고찰합니다.