दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑफ़लाइन पदानुक्रमित सुदृढीकरण सीखने के लिए ग्राफ़-सहायता प्राप्त सिलाई

Created by
  • Haebom

लेखक

सेउंगहो बाक, ताएगॉन पार्क, जोंगचान पार्क, सेउंगजुन ओह, युसुंग किम

रूपरेखा

मौजूदा ऑफ़लाइन पदानुक्रमित सुदृढीकरण सीखने के तरीके उप-लक्ष्य अनुक्रम उत्पन्न करने के लिए सुपर-पॉलिसी लर्निंग पर निर्भर करते हैं, लेकिन कार्य क्षितिज बढ़ने के साथ उनकी दक्षता कम हो जाती है और उनमें विभिन्न प्रक्षेपवक्रों में उपयोगी अवस्था संक्रमणों को जोड़ने के लिए प्रभावी रणनीतियों का अभाव होता है। इस पत्र में, हम ग्राफ-असिस्टेड स्टिचिंग (GAS) का प्रस्ताव करते हैं, जो एक नया ढाँचा है जो स्पष्ट सुपर-पॉलिसी लर्निंग के बजाय उप-लक्ष्य चयन को ग्राफ अन्वेषण समस्या के रूप में तैयार करता है। अस्थायी दूरी प्रतिनिधित्व (TDR) स्थान में अवस्थाओं को एम्बेड करके, GAS विभिन्न प्रक्षेपवक्रों में समान रूप से समान अवस्थाओं को एकीकृत ग्राफ नोड्स में समूहित करता है, जिससे कुशल संक्रमण लिंकिंग सक्षम होती है। फिर यह ग्राफ के भीतर उप-लक्ष्य अनुक्रमों का चयन करने के लिए सबसे छोटा पथ एल्गोरिथ्म लागू करता है, और निम्न-स्तरीय नीतियाँ उप-लक्ष्यों तक पहुँचना सीखती हैं। ग्राफ की गुणवत्ता में सुधार करने के लिए, हम एक अस्थायी दक्षता (TE) मीट्रिक पेश करते हैं जो शोर या अक्षम संक्रमण अवस्थाओं को फ़िल्टर करके कार्य प्रदर्शन में उल्लेखनीय रूप से सुधार करता है। GAS चलने, नेविगेशन और हेरफेर कार्यों पर पिछले ऑफ़लाइन HRL विधियों से बेहतर प्रदर्शन करता है। विशेष रूप से, यह सबसे अधिक जुड़े हुए कार्य पर 88.3 का स्कोर प्राप्त करता है, जो 1.0 के पिछले सर्वश्रेष्ठ स्कोर से काफी बेहतर प्रदर्शन करता है। स्रोत कोड https://github.com/qortmdgh4141/GAS पर पाया जा सकता है ।

Takeaways, Limitations

Takeaways:
हम उच्च-स्तरीय नीति अधिगम पर निर्भर हुए बिना ग्राफ अन्वेषण के माध्यम से उप-लक्ष्य अनुक्रमों को कुशलतापूर्वक चुनने के लिए एक नवीन ढांचा प्रस्तुत करते हैं।
टेम्पोरल डिस्टेंस रिप्रेजेंटेशन (TDR) का उपयोग करके विभिन्न प्रक्षेप पथों में उपयोगी अवस्था संक्रमणों को कुशलतापूर्वक जोड़ना।
टेम्पोरल एफिशिएंसी (TE) मीट्रिक के माध्यम से ग्राफ की गुणवत्ता में सुधार करें और कार्य निष्पादन में सुधार करें।
विभिन्न कार्यों (चलना, नेविगेशन, हेरफेर) में मौजूदा तरीकों से बेहतर प्रदर्शन प्राप्त करें।
Limitations:
टीडीआर स्पेस में कुशल एम्बेडिंग विधियों और टीई मीट्रिक के अनुकूलन पर आगे अनुसंधान की आवश्यकता है।
ग्राफ़ का आकार बढ़ने पर गणना संबंधी जटिलता में संभावित वृद्धि।
विशिष्ट कार्यों के लिए अनुकूलित हाइपरपैरामीटर सेटिंग्स आवश्यक हैं।
👍