यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र वॉलीबॉट्स प्रस्तुत करता है, जो एक रोबोटिक खेल परीक्षण स्थल है जहाँ कई ड्रोन वॉलीबॉल खेल में सहयोग और प्रतिस्पर्धा करते हैं। वॉलीबॉट्स एक ऐसा प्लेटफ़ॉर्म है जो तीन विशेषताओं को एकीकृत करता है: प्रतिस्पर्धी और सहयोगात्मक गेमप्ले, टर्न-आधारित इंटरैक्शन संरचना और चुस्त 3D पैंतरेबाज़ी। ड्रोन को अपने साथियों के साथ समन्वय करने और विरोधी टीम की रणनीति का अनुमान लगाने और उस पर प्रतिक्रिया देने की चुनौती दी जाती है। टर्न-आधारित इंटरैक्शन के लिए सटीक समय, सटीक स्थिति पूर्वानुमान और दीर्घकालिक समय-निर्भरता प्रबंधन की आवश्यकता होती है, जबकि चुस्त 3D पैंतरेबाज़ी के लिए क्वाड्रोटर ड्राइव की कमी के बावजूद तेज़ त्वरण, तीखे मोड़ और सटीक 3D स्थिति निर्धारण की आवश्यकता होती है। इस शोधपत्र में, हम एकल-ड्रोन प्रशिक्षण से लेकर बहु-ड्रोन सहयोग और प्रतिस्पर्धा कार्यों तक के कार्यों का एक व्यापक सेट, और प्रतिनिधि बहु-एजेंट सुदृढीकरण अधिगम (MARL) और खेल सिद्धांत एल्गोरिदम का आधारभूत मूल्यांकन प्रस्तुत करते हैं। सिमुलेशन परिणाम दर्शाते हैं कि एकल-एजेंट कार्यों में ऑन-पॉलिसी सुदृढीकरण अधिगम (RL) विधियाँ ऑफ-पॉलिसी विधियों से बेहतर प्रदर्शन करती हैं, लेकिन दोनों विधियाँ उन जटिल कार्यों में संघर्ष करती हैं जिनमें मोटर नियंत्रण और रणनीतिक खेल शामिल होते हैं। हमने एक पदानुक्रमित नीति भी तैयार की है जो 3v3 कार्य में सबसे मजबूत आधार रेखा पर 69.5% की जीत दर प्राप्त करती है, जो निम्न-स्तरीय नियंत्रण और उच्च-स्तरीय रणनीति के बीच जटिल अंतःक्रियाओं को संबोधित करने के लिए एक प्रभावी समाधान के रूप में इसकी क्षमता को उजागर करती है।
Takeaways, Limitations
•
_____टी1844_____:
◦
हम वॉलीबॉट्स प्रस्तुत कर रहे हैं, जो रोबोटिक खेलों के माध्यम से कार्यान्वित बुद्धिमत्ता के मूल्यांकन के लिए एक नया परीक्षण मंच है।
◦
मोटर नियंत्रण और रणनीतिक खेल को मिलाकर जटिल समस्याओं के प्रभावी समाधान के रूप में पदानुक्रमित नीतियों की क्षमता को प्रदर्शित करता है।
◦
ऑन-पॉलिसी आरएल विधियां एकल-एजेंट कार्यों से बेहतर प्रदर्शन करती हैं।
•
_____टी1845_____:
◦
ऑन-पॉलिसी और ऑफ-पॉलिसी दोनों आरएल विधियां जटिल कार्यों के साथ संघर्ष करती हैं जो मोटर नियंत्रण और रणनीतिक खेल को जोड़ती हैं।
◦
वास्तविक वातावरण के बजाय नकली वातावरण में परिणाम प्रस्तुत करना।
◦
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या प्रस्तावित पदानुक्रमिक नीति सभी जटिल स्थितियों में प्रभावी है।