दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एंट्रोपिक अन्वेषण के माध्यम से सुरक्षित मल्टीएजेंट समन्वय

Created by
  • Haebom

लेखक

अहान एल्प आयडेनिज़, एनरिको मार्चेसिनी, रॉबर्ट लॉफ्टिन, क्रिस्टोफर अमाटो, कगन टुमेर

रूपरेखा

यह पत्र एक ऐसी विधि प्रस्तावित करता है जो बहु-एजेंट सुदृढीकरण अधिगम में सुरक्षा संबंधी मुद्दों के समाधान हेतु, व्यक्तिगत एजेंटों के बजाय, पूरी टीम पर प्रतिबंधों का लाभ उठाती है। मौजूदा सुरक्षित सुदृढीकरण अधिगम एल्गोरिदम, अन्वेषण को सीमित करने के लिए एजेंट के व्यवहार को प्रतिबंधित करते हैं, जो प्रभावी सहकारी व्यवहारों की खोज के लिए अत्यंत महत्वपूर्ण है। इस पत्र में, हम एन्ट्रॉपी सर्च (E2C) प्रस्तुत करते हैं, जो प्रतिबंधित बहु-एजेंट सुदृढीकरण अधिगम की एक विधि है। E2C अवलोकन एन्ट्रॉपी को अधिकतम करके अन्वेषण को प्रोत्साहित करता है, जिससे सुरक्षित और प्रभावी सहकारी व्यवहारों को सीखना आसान हो जाता है। व्यापक प्रयोगात्मक परिणाम दर्शाते हैं कि E2C मौजूदा अप्रतिबंधित और प्रतिबंधित आधारभूत मॉडलों के बराबर या उनसे बेहतर प्रदर्शन करता है, जिससे असुरक्षित व्यवहारों में 50% तक की कमी आती है।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि संपूर्ण टीम पर प्रतिबंधों का लाभ उठाकर बहु-एजेंट सुदृढीकरण सीखने में सुरक्षा समस्या को प्रभावी ढंग से हल किया जा सकता है।
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि अवलोकन एन्ट्रॉपी अधिकतमीकरण-आधारित खोज रणनीति (E2C) सुरक्षित और प्रभावी सहकारी व्यवहार सीखने के लिए प्रभावी है।
हम पुष्टि करते हैं कि प्रस्तावित विधि मौजूदा विधियों की तुलना में सुरक्षा और प्रदर्शन में एक साथ सुधार कर सकती है।
Limitations:
ऐसी संभावना है कि प्रस्तावित विधि की प्रभावशीलता कुछ निश्चित वातावरणों तक ही सीमित हो सकती है।
अधिक जटिल और विविध बहु-एजेंट वातावरण में सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
टीम बाधाओं के डिजाइन और अनुकूलन पर आगे अनुसंधान की आवश्यकता हो सकती है।
👍