दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

समरूपता-निर्देशित बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम

Created by
  • Haebom

लेखक

योंगकाई तियान, यिरोंग क्यूई, ज़िन यू, वेनजुन वू, जी लुओ

रूपरेखा

यह शोधपत्र इस समस्या का समाधान करता है कि रोबोटिक प्रणालियों में सुदृढीकरण अधिगम का निष्पादन पूर्वनिर्धारित पुरस्कार फलनों की तर्कसंगतता पर निर्भर करता है, लेकिन मैन्युअल रूप से डिज़ाइन किए गए पुरस्कार फलन अशुद्धियों के कारण नीति विफलता का कारण बन सकते हैं। व्युत्क्रम सुदृढीकरण अधिगम (IRL) विशेषज्ञ प्रदर्शनों से अंतर्निहित पुरस्कार फलनों का अनुमान लगाकर इस समस्या का समाधान करता है, लेकिन मौजूदा विधियाँ सटीक पुरस्कार फलनों को प्राप्त करने के लिए बड़ी संख्या में विशेषज्ञ प्रदर्शनों पर अत्यधिक निर्भर करती हैं। विशेषज्ञ प्रदर्शनों को एकत्रित करने की उच्च लागत, विशेष रूप से बहु-रोबोट प्रणालियों में, IRL के व्यावहारिक उपयोग में गंभीर रूप से बाधा डालती है। इसलिए, बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम (MIRL) में नमूनाकरण दक्षता में सुधार एक महत्वपूर्ण चुनौती के रूप में उभरा है। यह शोधपत्र सैद्धांतिक रूप से प्रदर्शित करता है कि बहु-एजेंट प्रणालियों में अंतर्निहित समरूपता का लाभ उठाकर अधिक सटीक पुरस्कार फलनों को प्राप्त किया जा सकता है। इस अंतर्दृष्टि के आधार पर, हम एक सामान्य ढाँचा प्रस्तावित करते हैं जो मौजूदा बहु-एजेंट प्रतिकूल IRL एल्गोरिदम में समरूपता को शामिल करता है, जिससे नमूनाकरण दक्षता में उल्लेखनीय सुधार होता है। विभिन्न चुनौतीपूर्ण कार्यों पर प्रायोगिक परिणाम इस ढाँचे की प्रभावशीलता को प्रदर्शित करते हैं, और वास्तविक दुनिया की बहु-रोबोट प्रणालियों पर आगे सत्यापन हमारी पद्धति की व्यावहारिकता को प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन ढांचा प्रस्तुत करते हैं जो बहु-एजेंट प्रणालियों की समरूपता का उपयोग करके MIRL की नमूनाकरण दक्षता में महत्वपूर्ण सुधार करता है।
प्रस्तावित ढांचे की प्रभावशीलता को विभिन्न जटिल कार्यों के माध्यम से प्रयोगात्मक रूप से सत्यापित किया जाता है।
वास्तविक बहु-रोबोट प्रणालियों में व्यावहारिकता का सत्यापन।
Limitations:
संभावना यह है कि प्रस्तावित ढांचे का प्रदर्शन एक विशिष्ट प्रकार की समरूपता पर निर्भर करता है।
विभिन्न बहु-एजेंट प्रणालियों की सामान्यीकरणता पर आगे अनुसंधान की आवश्यकता है।
वास्तविक दुनिया के वातावरण में शोर और अनिश्चितता के प्रति मजबूती पर और अधिक शोध की आवश्यकता है।
👍