본 논문은 모델 기반 강화 학습(MBRL)에서 Atari100k 벤치마크에서 초인적 수준의 성능을 달성한 최근 발전에 대해 다룹니다. 이는 강력한 확산 월드 모델(diffusion world models)에서 훈련된 강화 학습 에이전트에 의해 가능해졌습니다. 하지만, 이러한 집계 지표는 주요 성능 비대칭성을 숨기고 있다는 점을 지적합니다. MBRL 에이전트는 특정 작업에서는 인간을 압도적으로 능가하지만, 다른 작업에서는 심각하게 성능이 저조하며, 전자의 높은 성능이 집계 지표를 부풀리는 결과를 가져옵니다. 이는 특히 확산 월드 모델로 훈련된 픽셀 기반 에이전트에서 두드러집니다. 본 연구는 픽셀 기반 에이전트에서 관찰되는 심각한 비대칭성을 해결하기 위한 초기 시도로, 모든 작업을 에이전트 최적(Agent-Optimal) 또는 인간 최적(Human-Optimal)으로 구분하고 두 집합 모두의 지표에 동등한 중요성을 부여합니다. 이러한 비대칭성은 픽셀 기반 방법에서 월드 모델 목표로 훈련된 시간적으로 구조화된 잠재 공간의 부족 때문이라고 가정합니다. 이 문제를 해결하기 위해 자기 일관성 목표(self-consistency objective)로 end-to-end 학습된 새로운 잠재 확산 월드 모델인 Joint Embedding DIffusion (JEDI)를 제안합니다. JEDI는 인간 최적 작업에서 최첨단 모델을 능가하면서 Atari100k 벤치마크 전반에서 경쟁력을 유지하며, 최신 픽셀 기반 확산 기준 모델보다 3배 빠르고 메모리 사용량은 43% 적습니다. 전반적으로, 본 연구는 Atari100k에서 인간 수준의 성능을 넘어서는 것이 무엇을 의미하는지에 대해 재고하게 합니다.