DITTO는 고차원 관측, 오프라인 학습, 그리고 정책 유도 공변량 이동 문제를 해결하는 오프라인 모방 학습 알고리즘입니다. 학습된 월드 모델의 잠재 공간에서 새로운 거리 측정법을 최적화합니다. 먼저 모든 이용 가능한 궤적 데이터로 월드 모델을 학습하고, 전문가의 시작 상태에서 학습된 모델 내에서 모방 에이전트를 전개하여 여러 시간 단계에 걸쳐 전문가 데이터셋과의 잠재적 차이에 대해 페널티를 부여합니다. 표준 강화 학습 알고리즘을 사용하여 이 다단계 잠재적 차이를 최적화하며, 이는 증명 가능하게 모방 학습을 유도하고, 온라인 환경 접근 없이 픽셀 기반의 다양한 Atari 환경에서 최첨단 성능과 샘플 효율성을 경험적으로 달성합니다. 또한 다른 표준 모방 학습 알고리즘을 월드 모델 설정에 적용하여 성능이 상당히 향상됨을 보여줍니다. 결과는 월드 모델의 창의적인 사용이 간단하고 강력하며 고성능 정책 학습 프레임워크로 이어질 수 있음을 보여줍니다.