Cet article explore la nécessité d'un modèle mondial pour un comportement flexible et orienté vers un objectif. Nous démontrons que tout agent capable de généraliser à des tâches multi-étapes et orientées vers un objectif doit apprendre un modèle prédictif de l'environnement. Ce modèle peut être dérivé de la politique de l'agent, et nous démontrons que l'amélioration des performances de l'agent ou la complexité croissante des objectifs atteignables nécessitent l'apprentissage de modèles mondiaux de plus en plus précis.