दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एमएसएआरएल: मल्टी-स्मॉल-एजेंट रीइन्फोर्समेंट लर्निंग के साथ तर्क और उपकरण उपयोग को अलग करना

Created by
  • Haebom

लेखक

दयाउ वांग, जियाये यांग, वेइकांग ली, जियाहुई लियांग, यांग ली

रूपरेखा

एमएसएआरएल एक बहु-एजेंट सुदृढीकरण अधिगम ढाँचा है जिसमें कई छोटे एजेंट श्रम विभाजन के माध्यम से सहयोग करते हैं। जबकि मौजूदा उपकरण-एकीकृत अनुमान प्रणालियों में एक एकल, बड़ा मॉडल शामिल होता है जो दीर्घकालिक अनुमान को सटीक उपकरण संचालन के साथ मिलाता है, जिसके परिणामस्वरूप संज्ञानात्मक अधिभार और अस्थिर समन्वय होता है, एमएसएआरएल स्पष्ट रूप से अनुमान और उपकरण उपयोग को अलग करता है। अनुमान एजेंट समस्या का विश्लेषण करता है और उपकरण आह्वान की योजना बनाता है, जबकि बहु-उपकरण एजेंट विशिष्ट बाह्य उपकरणों में विशेषज्ञता रखते हैं और भूमिका-विशिष्ट पुरस्कारों के साथ अनुकरण अधिगम और सुदृढीकरण अधिगम के संयोजन के माध्यम से प्रशिक्षित होते हैं। गणितीय समस्या समाधान में, कोड निष्पादन सहित, एमएसएआरएल एकल-एजेंट आधारभूत मॉडल की तुलना में अनुमान स्थिरता और अंतिम उत्तर सटीकता में उल्लेखनीय रूप से सुधार करता है। इसके अलावा, यह आर्किटेक्चर विभिन्न उपकरण-उपयोग कार्यों के लिए सामान्यीकृत होता है, यह दर्शाता है कि छोटे एजेंटों का उपयोग करके संज्ञानात्मक भूमिकाओं का पृथक्करण बहु-एजेंट एआई डिज़ाइन करने के लिए एक मापनीय खाका है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि छोटे एजेंटों पर आधारित एक बहु-एजेंट प्रणाली संज्ञानात्मक भार हस्तक्षेप को कम कर सकती है और अनुमान स्थिरता और सटीकता में सुधार कर सकती है।
एक ऐसा डिजाइन जो तर्क को उपकरण के उपयोग से स्पष्ट रूप से अलग करता है, एक स्केलेबल आर्किटेक्चर का सुझाव देता है जो विभिन्न प्रकार के उपकरण उपयोग कार्यों के लिए सामान्यीकृत हो सकता है।
अनुकरण अधिगम और सुदृढीकरण अधिगम को संयोजित करने वाली प्रशिक्षण विधियां उपकरण एजेंटों के कुशल अधिगम को सक्षम बनाती हैं।
Limitations:
वर्तमान में, गणितीय समस्या समाधान और कोड निष्पादन पर ध्यान केंद्रित किया जा रहा है, तथा अन्य प्रकार के कार्यों के लिए सामान्यीकरण पर और अधिक शोध की आवश्यकता है।
कई छोटे एजेंटों के बीच कुशल सहयोग और समन्वय तंत्र पर आगे अनुसंधान की आवश्यकता हो सकती है।
जटिल वास्तविक दुनिया की समस्याओं के लिए अनुप्रयोग हेतु मापनीयता और स्थिरता का और अधिक सत्यापन आवश्यक है।
👍