यह शोधपत्र सिम्युलेटर व्युत्पन्नों का लाभ उठाकर सुदृढीकरण अधिगम (RL) की अधिगम दक्षता में सुधार करने के तरीकों का पता लगाता है। हालाँकि मौजूदा ग्रेडिएंट-आधारित दृष्टिकोणों ने गैर-व्युत्पन्न दृष्टिकोणों की तुलना में बेहतर प्रदर्शन प्रदर्शित किया है, कार्यान्वयन लागत या अनुपलब्धता के कारण सिम्युलेटर के ग्रेडिएंट तक पहुँचना चुनौतीपूर्ण बना हुआ है। मॉडल-आधारित सुदृढीकरण अधिगम (MBRL) सीखे गए गतिशील मॉडलों का उपयोग करके इन ग्रेडिएंट्स का अनुमान लगा सकता है, लेकिन प्रशिक्षण के दौरान पूर्वानुमान त्रुटियाँ जमा हो जाती हैं, जिससे संभावित रूप से सॉल्वर दक्षता कम हो जाती है और नीति प्रदर्शन में गिरावट आती है। इस शोधपत्र में, हम एक ऐसी विधि प्रस्तावित करते हैं जो प्रक्षेप पथ निर्माण और ग्रेडिएंट गणना को अलग करती है। प्रक्षेप पथ एक सिम्युलेटर का उपयोग करके विकसित किए जाते हैं, और ग्रेडिएंट की गणना सिम्युलेटर के सीखे गए अवकलनीय मॉडल के माध्यम से बैकप्रोपेगेशन का उपयोग करके की जाती है। यह हाइब्रिड डिज़ाइन सिम्युलेटर ग्रेडिएंट अनुपलब्ध होने पर भी कुशल और सुसंगत प्रथम-क्रम नीति अनुकूलन को सक्षम बनाता है, और सिम्युलेटेड प्रक्षेप पथों से अधिक सटीक मूल्यांकनकर्ताओं को सीखने की अनुमति देता है। प्रस्तावित विधि SHAC जैसे विशिष्ट अनुकूलकों की नमूना दक्षता और गति प्राप्त करती है, जबकि PPO जैसे मानक दृष्टिकोणों की व्यापकता को बनाए रखती है और अन्य प्रथम-क्रम MBRL विधियों में देखे गए गलत व्यवहार से बचती है। हमने बेंचमार्क नियंत्रण कार्यों पर एल्गोरिथम का प्रयोगात्मक सत्यापन किया तथा वास्तविक Go2 चतुष्पाद रोबोट पर चतुष्पाद और द्विपाद दोनों प्रकार के चलने वाले कार्यों में इसकी प्रभावशीलता प्रदर्शित की।