यह शोधपत्र एक वास्तविक-से-सिम-से-वास्तविक ढाँचा प्रस्तावित करता है, जिसे X-Sim कहा जाता है। मानवीय गति की नकल करने के बजाय, X-Sim, RGBD छवियों से वस्तु गति को निकालकर वस्तु-केंद्रित पुरस्कारों को परिभाषित करता है, जिनका उपयोग फिर एक सुदृढीकरण अधिगम (RL) एजेंट को प्रशिक्षित करने के लिए किया जाता है। सीखी गई नीति को विभिन्न दृष्टिकोणों और प्रकाश व्यवस्था के साथ रेंडर किए गए सिंथेटिक रोलआउट का उपयोग करके एक छवि-सशर्त प्रसार नीति में परिवर्तित किया जाता है। वास्तविक परिवेश में स्थानांतरित करने के लिए, हम ऑनलाइन डोमेन अनुकूलन का उपयोग करके वास्तविक और सिम्युलेटेड प्रेक्षणों को संरेखित करते हैं। हम रोबोट टेलीऑपरेशन डेटा की आवश्यकता के बिना पाँच हेरफेर कार्यों में प्रदर्शन में औसतन 30% सुधार प्रदर्शित करते हैं, मौजूदा विधियों की तुलना में 10 गुना कम डेटा अधिग्रहण समय के साथ समान प्रदर्शन प्राप्त करते हैं, और नए कैमरा दृष्टिकोणों और परीक्षण समय के लिए अच्छा सामान्यीकरण प्रदर्शित करते हैं।