यह शोधपत्र रोबोट की दृश्य-गति नियंत्रण नीति सीखने में डेटा संग्रह की कठिनाई को हल करने के लिए एक अध्ययन है। जहाँ मौजूदा अनुकरण अधिगम विधि के लिए बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है, वहीं यह अध्ययन विभिन्न प्रकार के डेटा (रोबोट, मानव) का उपयोग करके डेटा संग्रह की मात्रा को कम करने का एक तरीका प्रस्तावित करता है। मुख्य विचार सबसे पहले, ऑप्टिक फ्लो का उपयोग करके विभिन्न प्रकार के डेटा के साथ विश्व मॉडल (WM) सीखना और लक्ष्य रोबोट के बारे में थोड़ी मात्रा में डेटा के साथ इसे परिष्कृत करना है। दूसरा, WM के अव्यक्त स्थान में एक बेहतर क्रिया क्रम खोजने के लिए अव्यक्त नीति संचालन (LPS) तकनीक के माध्यम से क्रिया प्रतिकृति नीति के आउटपुट में सुधार करना है। प्रायोगिक परिणाम दर्शाते हैं कि सीमित डेटा (30 प्रदर्शन: 50% से अधिक, 50 प्रदर्शन: 20% से अधिक) के साथ सीखी गई नीति का प्रदर्शन, ओपन X-एम्बोडिमेंट डेटासेट या मानव खेल डेटा का उपयोग करके पूर्व-प्रशिक्षित WM के साथ संयुक्त होने पर उल्लेखनीय रूप से बेहतर होता है।