यह शोधपत्र इस समस्या का समाधान करता है कि रोबोटिक प्रणालियों में सुदृढीकरण अधिगम का निष्पादन पूर्वनिर्धारित पुरस्कार फलनों की तर्कसंगतता पर निर्भर करता है, लेकिन मैन्युअल रूप से डिज़ाइन किए गए पुरस्कार फलन अशुद्धियों के कारण नीति विफलता का कारण बन सकते हैं। व्युत्क्रम सुदृढीकरण अधिगम (IRL) विशेषज्ञ प्रदर्शनों से अंतर्निहित पुरस्कार फलनों का अनुमान लगाकर इस समस्या का समाधान करता है, लेकिन मौजूदा विधियाँ सटीक पुरस्कार फलनों को प्राप्त करने के लिए बड़ी संख्या में विशेषज्ञ प्रदर्शनों पर अत्यधिक निर्भर करती हैं। विशेषज्ञ प्रदर्शनों को एकत्रित करने की उच्च लागत, विशेष रूप से बहु-रोबोट प्रणालियों में, IRL के व्यावहारिक उपयोग में गंभीर रूप से बाधा डालती है। इसलिए, बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम (MIRL) में नमूनाकरण दक्षता में सुधार एक महत्वपूर्ण चुनौती के रूप में उभरा है। यह शोधपत्र सैद्धांतिक रूप से प्रदर्शित करता है कि बहु-एजेंट प्रणालियों में अंतर्निहित समरूपता का लाभ उठाकर अधिक सटीक पुरस्कार फलनों को प्राप्त किया जा सकता है। इस अंतर्दृष्टि के आधार पर, हम एक सामान्य ढाँचा प्रस्तावित करते हैं जो मौजूदा बहु-एजेंट प्रतिकूल IRL एल्गोरिदम में समरूपता को शामिल करता है, जिससे नमूनाकरण दक्षता में उल्लेखनीय सुधार होता है। विभिन्न चुनौतीपूर्ण कार्यों पर प्रायोगिक परिणाम इस ढाँचे की प्रभावशीलता को प्रदर्शित करते हैं, और वास्तविक दुनिया की बहु-रोबोट प्रणालियों पर आगे सत्यापन हमारी पद्धति की व्यावहारिकता को प्रदर्शित करता है।