दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्मार्ट सोचें, स्मार्ट तरीके से काम करें! मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग के लिए संभाव्य तर्क ढालों का विश्लेषण

Created by
  • Haebom

लेखक

सचित चटर्जी, एर्मन अकार

रूपरेखा

यह शोधपत्र शील्डेड मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग (SMARL) ढाँचे का प्रस्ताव करता है, जो प्रोबेबिलिस्टिक लॉजिक शील्ड्स (PLS) का विस्तार करता है, जो एकल-एजेंट रीइन्फोर्समेंट लर्निंग में सुरक्षा की गारंटी देता है, और इसे मल्टी-एजेंट परिवेशों में भी लागू करता है। SMARL एक नवीन प्रोबेबिलिस्टिक लॉजिक टेम्पोरल डिफरेंस (PLTD) अद्यतन विधि प्रस्तुत करता है जो संभाव्य बाधाओं को सीधे मान अद्यतन प्रक्रिया में एकीकृत करती है, और एक प्रोबेबिलिस्टिक लॉजिक पॉलिसी ग्रेडिएंट विधि जो MARL के लिए औपचारिक सुरक्षा गारंटी प्रदान करती है। हम सममित और असममित बाधाओं वाले विभिन्न n-खिलाड़ी गेम थ्योरी बेंचमार्क पर SMARL का मूल्यांकन करते हैं, यह दर्शाते हुए कि यह बाधाओं के उल्लंघन को कम करता है और मौजूदा विधियों की तुलना में सहयोग में उल्लेखनीय सुधार करता है। इससे पता चलता है कि SMARL को सुरक्षित और सामाजिक रूप से सामंजस्यपूर्ण मल्टी-एजेंट प्रणालियों के लिए एक प्रभावी तंत्र के रूप में स्थापित किया जा सकता है।

Takeaways, Limitations

Takeaways:
हम SMARL फ्रेमवर्क प्रस्तुत करते हैं, जो सुरक्षा सुनिश्चित करने के लिए PLS को मल्टी-एजेंट सुदृढीकरण लर्निंग (MARL) वातावरण तक विस्तारित करता है।
पीएलटीडी अद्यतन और संभाव्य तर्क नीति ढाल विधियों के माध्यम से बाधाओं को प्रभावी ढंग से एकीकृत करना।
विभिन्न बेंचमार्कों में मौजूदा तरीकों की तुलना में बाधा उल्लंघन को कम करने और सहयोग को बढ़ावा देने में प्रभावशीलता का प्रदर्शन किया गया।
एक सुरक्षित और सामाजिक रूप से सामंजस्यपूर्ण बहु-एजेंट प्रणाली विकसित करने की संभावना प्रस्तुत करना।
एमएआरएल को अनुपालन परिणामों की ओर ले जाने के लिए एक प्रभावी तंत्र प्रदान करता है।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल जटिलता और मापनीयता का आगे विश्लेषण आवश्यक है।
विभिन्न बहु-एजेंट वातावरणों और समस्या प्रकारों के लिए सामान्यीकरण प्रदर्शन सत्यापन की आवश्यकता होती है।
वास्तविक दुनिया के अनुप्रयोगों के लिए और अधिक अनुसंधान और प्रयोगों की आवश्यकता है।
कुछ प्रकार की बाधाओं के लिए पूर्वाग्रह की जांच करने की आवश्यकता है।
👍