दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रणनीतिक टकराव के लिए पदानुक्रमित सुदृढीकरण सीखने पर आधारित द्विदिशात्मक कार्य-गति योजना

Created by
  • Haebom

लेखक

क़िज़ेन वू, लेई चेन, केक्सिन लियू, जिंहु लू

रूपरेखा

यह शोधपत्र एक नवीन द्विदिशात्मक दृष्टिकोण का प्रस्ताव करता है जो स्वॉर्म रोबोटिक्स में रणनीतिक टकराव जैसी प्रतिकूल परिस्थितियों में कुशल निर्णय लेने के लिए पृथक आदेशों और निरंतर क्रियाओं को एकीकृत करता है। मौजूदा कार्य और गति नियोजन विधियाँ निर्णय लेने की प्रक्रिया को दो परतों में विभाजित करती हैं, लेकिन उनकी एकदिशात्मक संरचना अंतर-परतीय अंतर्निर्भरताओं को समझने में विफल रहती है, जिससे गतिशील वातावरण में अनुकूलनशीलता सीमित हो जाती है। पदानुक्रमित सुदृढीकरण अधिगम पर आधारित प्रस्तावित द्विदिशात्मक दृष्टिकोण, आदेशों को कार्य असाइनमेंट और क्रियाओं को पथ नियोजन से प्रभावी ढंग से जोड़ता है, पदानुक्रमित ढाँचे में अधिगम को बढ़ाने के लिए क्रॉस-ट्रेनिंग तकनीकों का उपयोग करता है। इसके अलावा, यह एक प्रक्षेप पथ पूर्वानुमान मॉडल प्रस्तुत करता है जो अमूर्त कार्य निरूपणों को व्यवहार्य नियोजन लक्ष्यों से जोड़ता है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित दृष्टिकोण मौजूदा विधियों से बेहतर प्रदर्शन करता है, 80% से अधिक की मैच-विजय दर और 0.01 सेकंड से भी कम समय में निर्णय लेने की क्षमता प्राप्त करता है। बड़े पैमाने के प्रयोगों और वास्तविक दुनिया के रोबोट प्रयोगों के माध्यम से प्रदर्शन प्रस्तावित दृष्टिकोण की सामान्यीकरणीयता और व्यावहारिकता को और उजागर करता है।

Takeaways, Limitations

Takeaways:
झुंड रोबोटों की टकरावपूर्ण स्थितियों में कुशल और अनुकूल व्यवहार, पदानुक्रमित सुदृढीकरण सीखने पर आधारित द्विदिशात्मक निर्णय लेने की विधि के माध्यम से संभव है।
80% से अधिक की उच्च मैच जीत दर और 0.01 सेकंड से कम समय में तेजी से निर्णय लेने का समय प्राप्त करें।
बड़े पैमाने पर सिमुलेशन और वास्तविक रोबोट प्रयोगों के माध्यम से सामान्यीकरण और व्यावहारिकता का सत्यापन।
पृथक आदेशों और सतत कार्यों के एकीकरण के माध्यम से अधिक कुशल कार्य और गति नियोजन।
Limitations:
प्रस्तावित विधि का प्रदर्शन विशिष्ट प्रायोगिक वातावरण पर निर्भर हो सकता है। विभिन्न वातावरणों में आगे सत्यापन आवश्यक है।
प्रक्षेप पथ पूर्वानुमान मॉडल की सटीकता समग्र प्रणाली प्रदर्शन को प्रभावित कर सकती है। अधिक परिष्कृत पूर्वानुमान मॉडल की आवश्यकता है।
वास्तविक दुनिया के रोबोटिक्स प्रयोगों का पैमाना सीमित हो सकता है। सामान्यीकरण की पुष्टि के लिए और अधिक व्यापक प्रयोगों की आवश्यकता है।
👍