본 논문은 실세계 환경에서 학습된 제어 정책을 적용하는 데 있어 발생하는 근본적인 문제점, 즉 시스템 역학의 예상치 못한 변화에 따른 성능 저하를 해결하기 위해 반사적 세계 모델(RWM)을 제시합니다. RWM은 세계 모델 예측을 암시적 기준 궤적으로 활용하여 빠른 적응을 가능하게 하는 이중 제어 프레임워크입니다. 강화 학습을 통한 장기적 보상 극대화와 빠른 잠재적 제어를 통한 강건한 모터 실행으로 제어 문제를 분리하여 모델 기반 강화 학습 기준선에 비해 낮은 온라인 계산 비용으로 훨씬 빠른 적응을 달성하면서 거의 최적의 성능을 유지합니다. 강화 학습을 통한 유연한 정책 학습의 장점과 빠른 오류 수정 기능을 결합하여 다양한 역학 하에서 고차원 연속 제어 작업의 성능을 유지하는 원칙적인 접근 방식을 제공합니다.