केवल एक कैमरा और एक टोपोलॉजिकल मानचित्र का उपयोग करके दृश्य नेविगेशन उन विधियों के एक आकर्षक विकल्प के रूप में उभरा है जिनके लिए अतिरिक्त सेंसर और 3D मानचित्रों की आवश्यकता होती है। यह आमतौर पर एक "छवि-सापेक्ष" दृष्टिकोण के माध्यम से प्राप्त किया जाता है, जो वर्तमान अवलोकन छवियों और उप-लक्ष्य छवियों के युग्मों से नियंत्रण का अनुमान लगाता है। हालाँकि, चूँकि छवियाँ एजेंट की मुद्रा और कार्यान्वयन से पूरी तरह जुड़ी होती हैं, इसलिए दुनिया के छवि-स्तरीय निरूपण सीमित होते हैं। इसके विपरीत, वस्तुएँ मानचित्र के गुण होते हैं, जो कार्यान्वयन और प्रक्षेप पथ से स्वतंत्र दुनिया का निरूपण प्रदान करते हैं। इस अध्ययन में, हम "वस्तु-सापेक्ष" नियंत्रण अधिगम के लिए एक नवीन प्रतिमान प्रस्तुत करते हैं जो कई वांछनीय गुण प्रदर्शित करता है: a) यह पूर्व अनुभव का सख्ती से अनुकरण किए बिना नए पथों का अन्वेषण कर सकता है; b) यह नियंत्रण पूर्वानुमान समस्या को छवि मिलान समस्या से अलग कर सकता है; और c) यह प्रशिक्षण-परीक्षण और मानचित्रण-संचालन सेटिंग्स में उच्च स्तर की अपरिवर्तनशीलता प्राप्त कर सकता है। हम अधिक जानकारीपूर्ण वस्तु-स्तरीय वैश्विक पथ नियोजन लागत प्राप्त करने के लिए एक "सापेक्ष" 3D दृश्य ग्राफ़ के रूप में एक टोपोलॉजिकल मानचित्र निरूपण का प्रस्ताव करते हैं। हम "ऑब्जेक्ट रिएक्ट" नामक एक स्थानीय नियंत्रक को प्रशिक्षित करते हैं जो एक उच्च-स्तरीय "वेऑब्जेक्ट कॉस्टमैप" निरूपण पर आधारित है जिसके लिए स्पष्ट RGB इनपुट की आवश्यकता नहीं होती है। हम कई नेविगेशन कार्यों में, जो सेंसर की ऊँचाई में बदलाव और बुनियादी स्थानिक समझ (जैसे, विपरीत दिशा में मानचित्र प्रक्षेप पथ अन्वेषण) को चुनौती देते हैं, छवि-सापेक्ष नियंत्रण की तुलना में वस्तु-सापेक्ष नियंत्रण सीखने के लाभ को प्रदर्शित करते हैं। हम यह भी प्रदर्शित करते हैं कि केवल-सिमुलेशन नीति वास्तविक आंतरिक वातावरणों में भी अच्छी तरह से सामान्यीकृत होती है।