본 논문은 강화학습의 한 분야인 모방 학습(Imitation Learning, IL)에서 안정성 문제를 해결하는 새로운 방법을 제시합니다. 기존 IL 방법들은 특히 세계 모델(world model) 프레임워크 내에서 적대적 보상 또는 가치 함수를 사용할 때 불안정성 문제에 직면하는데, 본 연구는 밀도 추정을 위한 랜덤 네트워크 증류(RND) 기반의 보상 모델을 통해 이러한 문제를 해결합니다. 세계 모델의 잠재 공간 내에서 전문가 및 행동 분포를 공동으로 추정하여 보상 모델을 구축하며, DMControl, Meta-World, ManiSkill2 등 다양한 벤치마크에서 안정적인 성능과 전문가 수준의 결과를 달성함을 보여줍니다. 이는 적대적 방법보다 향상된 안정성을 유지하면서 전문가 수준의 성능을 달성한다는 것을 의미합니다.