본 논문은 지능형 에이전트가 이전에 경험해보지 못한 완전히 새로운 문제를 해결하는 능력, 특히 환경과의 상호작용 없이 사고(mental manipulation)를 통해 문제 해결을 계획하고 평가하는 능력에 초점을 맞춥니다. 환경 요소들의 조합적 특성을 이용하여, 특정 조합을 제외하고 에이전트를 훈련시킴으로써 진정으로 새로운 문제를 생성합니다. 훈련 과정에서 각 요소와 쌍으로 된 상호작용에 대한 경험을 통해 에이전트는 새로운 문제를 정신적으로 시뮬레이션할 수 있습니다. 본 논문에서는 사고 전후의 성능 차이를 기반으로 작업을 선택하여 세계 모델을 갖춘 에이전트가 정신적 시뮬레이션 능력을 활용하도록 하는 방법을 제안합니다. 실험 결과, 제안된 방법을 통해 훈련된 에이전트는 새로운 문제에서 대안 시나리오를 성공적으로 시뮬레이션하고, 그 정보를 실제 환경에서의 행동을 안내하는 데 사용하여 단 한 번의 시도(제로샷)로 새로운 작업을 해결했습니다.