본 논문은 오프라인 모델 기반 강화학습(MBRL)의 데이터 효율성 및 일반화 능력 향상에 초점을 맞추고 있다. 기존의 두 단계 학습 방식(세계 모델 학습 후 정책 최적화)의 한계점인 목적 불일치 및 정책의 취약성을 해결하기 위해, 세계 모델과 정책을 통합된 학습 목표 하에 동적으로 적응시키는 새로운 프레임워크를 제시한다. 이는 최대-최소(maximin) 최적화 문제를 Stackelberg 학습 역학을 활용하여 해결하는 방식으로, 강건성을 향상시킨다. 이론적 분석과 효율적인 구현 방안을 제시하며, 다양한 작업(D4RL MuJoCo, Tokamak Control)에서 최첨단 성능을 달성함을 실험적으로 보여준다.