यह शोधपत्र मॉडल-आधारित इंजीनियरिंग में जटिल मॉडल रूपांतरण (MT) अनुक्रमों को कुशलतापूर्वक विकसित करने के लिए एक सुदृढीकरण अधिगम (RL)-आधारित ढाँचा प्रस्तुत करता है। मॉडल सिंक्रनाइज़ेशन, स्वचालित मॉडल पुनर्प्राप्ति और डिज़ाइन स्पेस एक्सप्लोरेशन सहित विभिन्न समस्याओं के लिए जटिल MT अनुक्रमों की आवश्यकता होती है। हालाँकि, इन्हें मैन्युअल रूप से विकसित करना त्रुटि-प्रवण और चुनौतीपूर्ण है। इस शोधपत्र में, हम एक दृष्टिकोण और तकनीकी ढाँचा प्रस्तावित करते हैं जो एक RL एजेंट को उपयोगकर्ता सलाह का उपयोग करके इष्टतम MT अनुक्रम खोजने में सक्षम बनाता है, जिसमें अनिश्चितता भी शामिल हो सकती है। हम उपयोगकर्ता-परिभाषित MTs को RL प्राइमिटिव्स में मैप करते हैं और इष्टतम MT अनुक्रमों को खोजने के लिए उन्हें RL प्रोग्राम के रूप में निष्पादित करते हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि अनिश्चितता की स्थिति में भी, उपयोगकर्ता सलाह RL प्रदर्शन में उल्लेखनीय रूप से सुधार करती है, जिससे जटिल MTs के अधिक कुशल विकास में योगदान मिलता है। यह अध्ययन उपयोगकर्ता सलाह की निश्चितता और समय के बीच के अंतर को संबोधित करके RL-आधारित मानव-इन-द-लूप इंजीनियरिंग पद्धति को आगे बढ़ाता है।