यह शोधपत्र लचीले, लक्ष्य-उन्मुख व्यवहार के लिए एक विश्व मॉडल की आवश्यकता की पड़ताल करता है। हम प्रदर्शित करते हैं कि बहु-चरणीय, लक्ष्य-उन्मुख कार्यों को सामान्यीकृत करने में सक्षम किसी भी एजेंट को पर्यावरण का एक पूर्वानुमानित मॉडल सीखना होगा। यह मॉडल एजेंट की नीति से प्राप्त किया जा सकता है, और हम प्रदर्शित करते हैं कि एजेंट के बेहतर प्रदर्शन या प्राप्त करने योग्य लक्ष्यों की बढ़ती जटिलता के लिए अधिक सटीक विश्व मॉडल सीखना आवश्यक है।