यह शोधपत्र इस बात पर प्रकाश डालता है कि अनुकरण अधिगम कुशल रोबोट व्यवहार को सक्षम बनाता है, लेकिन यह कम नमूना दक्षता और सीमित सामान्यीकरण से जूझता है, जिससे दीर्घकालिक, बहु-वस्तु कार्यों को संबोधित करना मुश्किल हो जाता है। मौजूदा विधियों को संभावित कार्य विविधताओं को संबोधित करने के लिए कई प्रदर्शनों की आवश्यकता होती है, जिससे वे वास्तविक दुनिया के अनुप्रयोगों के लिए महंगी और अव्यावहारिक हो जाती हैं। यह अध्ययन केवल 10 प्रदर्शनों के साथ स्थानिक और श्रेणी सामान्यीकरण में सुधार और नीतियों को कुशलतापूर्वक प्रशिक्षित करने के लिए, उन्मुख सामर्थ्य फ़्रेम, अवस्था और क्रिया स्थानों का एक संरचित निरूपण, प्रस्तुत करता है। इससे भी महत्वपूर्ण बात यह है कि यह अमूर्तता दीर्घकालिक, बहु-वस्तु कार्यों को संबोधित करने के लिए स्वतंत्र रूप से प्रशिक्षित उप-नीतियों के संरचनात्मक सामान्यीकरण को सक्षम बनाती है। उप-नीतियों के बीच सुचारू संक्रमण को सुगम बनाने के लिए, हम स्व-प्रगति पूर्वानुमान की अवधारणा प्रस्तुत करते हैं, जो सीधे प्रशिक्षण प्रदर्शनों की अवधि से प्राप्त होती है। बहु-चरणीय, बहु-वस्तु अंतःक्रियाओं वाले तीन वास्तविक दुनिया के कार्यों पर किए गए प्रयोगों से पता चलता है कि नीतियाँ, कम मात्रा में डेटा के बावजूद, अदृश्य वस्तु दिखावट, ज्यामितीय आकृतियों और स्थानिक व्यवस्थाओं के लिए मजबूती से सामान्यीकृत होती हैं, और व्यापक प्रशिक्षण डेटा पर निर्भर हुए बिना उच्च सफलता दर प्राप्त करती हैं।