Este artículo explora la necesidad de un modelo de mundo para un comportamiento flexible y orientado a objetivos. Demostramos que cualquier agente capaz de generalizar a tareas multietapa y orientadas a objetivos debe aprender un modelo predictivo del entorno. Este modelo puede derivarse de la política del agente, y demostramos que un mejor rendimiento del agente o una mayor complejidad de los objetivos alcanzables requieren el aprendizaje de modelos de mundo cada vez más precisos.