इस पत्र में, हम विज़ुओमोटर नीति अधिगम में वितरण-बाह्य (OOD) स्थितियों की चुनौतियों का समाधान करने के लिए एक वस्तु-केंद्रित पुनर्प्राप्ति (OCR) ढाँचा प्रस्तावित करते हैं। जबकि मौजूदा क्रिया प्रतिकृति (BC) विधियाँ बड़ी मात्रा में लेबल किए गए डेटा पर अत्यधिक निर्भर करती हैं और अपरिचित स्थानिक स्थितियों में विफल हो जाती हैं, OCR एक पुनर्प्राप्ति नीति सीखता है जिसमें मूल प्रशिक्षण डेटा के ऑब्जेक्ट कीपॉइंट मैनिफोल्ड ग्रेडिएंट से अनुमानित एक व्युत्क्रम नीति शामिल होती है, बिना अतिरिक्त डेटा एकत्र किए। यह पुनर्प्राप्ति नीति, विशिष्ट विधि की परवाह किए बिना, किसी भी आधारभूत विज़ुओमोटर BC नीति के लिए एक सरल ऐड-ऑन के रूप में कार्य करती है, और OOD स्थितियों में भी कार्य की सफलता सुनिश्चित करने के लिए सिस्टम को प्रशिक्षण वितरण पर वापस निर्देशित करती है। सिमुलेशन और वास्तविक रोबोट प्रयोगों, दोनों में, हम OOD में आधारभूत नीति की तुलना में 77.7% तक सुधार प्रदर्शित करते हैं, और निरंतर अधिगम के लिए स्वचालित रूप से डेमो एकत्र करने की OCR की क्षमता को भी प्रदर्शित करते हैं। हमारा तर्क है कि यह ढाँचा वास्तविक वातावरण में विज़ुओमोटर नीतियों की मजबूती में सुधार की दिशा में एक कदम आगे है।