본 논문은 유연하고 목표 지향적인 행동에 대한 세계 모델의 필요성 여부를 탐구합니다. 다단계 목표 지향적 과제에 일반화할 수 있는 모든 에이전트는 환경의 예측 모델을 학습해야 함을 공식적으로 증명합니다. 이 모델은 에이전트의 정책에서 추출될 수 있으며, 에이전트의 성능 향상이나 달성 가능한 목표의 복잡성 증가는 점점 더 정확한 세계 모델의 학습을 필요로 함을 보여줍니다. 이러한 결과는 안전하고 일반적인 에이전트 개발, 복잡한 환경에서 에이전트 역량의 경계 설정, 에이전트로부터 세계 모델을 유도하는 새로운 알고리즘 개발 등 다양한 영향을 미칩니다.