दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डिकप्लड बैकप्रोपेगेशन के माध्यम से प्रथम क्रम मॉडल-आधारित आरएल

Created by
  • Haebom

लेखक

जोसेफ अमीगो, रुहोल्ला खोर्रमबख्त, इलियट चाने-साने, निकोलस मंसर्ड, लुडोविक रिगेटी

रूपरेखा

यह शोधपत्र सिम्युलेटर व्युत्पन्नों का लाभ उठाकर सुदृढीकरण अधिगम (RL) की अधिगम दक्षता में सुधार करने के तरीकों का पता लगाता है। हालाँकि मौजूदा ग्रेडिएंट-आधारित दृष्टिकोणों ने गैर-व्युत्पन्न दृष्टिकोणों की तुलना में बेहतर प्रदर्शन प्रदर्शित किया है, कार्यान्वयन लागत या अनुपलब्धता के कारण सिम्युलेटर के ग्रेडिएंट तक पहुँचना चुनौतीपूर्ण बना हुआ है। मॉडल-आधारित सुदृढीकरण अधिगम (MBRL) सीखे गए गतिशील मॉडलों का उपयोग करके इन ग्रेडिएंट्स का अनुमान लगा सकता है, लेकिन प्रशिक्षण के दौरान पूर्वानुमान त्रुटियाँ जमा हो जाती हैं, जिससे संभावित रूप से सॉल्वर दक्षता कम हो जाती है और नीति प्रदर्शन में गिरावट आती है। इस शोधपत्र में, हम एक ऐसी विधि प्रस्तावित करते हैं जो प्रक्षेप पथ निर्माण और ग्रेडिएंट गणना को अलग करती है। प्रक्षेप पथ एक सिम्युलेटर का उपयोग करके विकसित किए जाते हैं, और ग्रेडिएंट की गणना सिम्युलेटर के सीखे गए अवकलनीय मॉडल के माध्यम से बैकप्रोपेगेशन का उपयोग करके की जाती है। यह हाइब्रिड डिज़ाइन सिम्युलेटर ग्रेडिएंट अनुपलब्ध होने पर भी कुशल और सुसंगत प्रथम-क्रम नीति अनुकूलन को सक्षम बनाता है, और सिम्युलेटेड प्रक्षेप पथों से अधिक सटीक मूल्यांकनकर्ताओं को सीखने की अनुमति देता है। प्रस्तावित विधि SHAC जैसे विशिष्ट अनुकूलकों की नमूना दक्षता और गति प्राप्त करती है, जबकि PPO जैसे मानक दृष्टिकोणों की व्यापकता को बनाए रखती है और अन्य प्रथम-क्रम MBRL विधियों में देखे गए गलत व्यवहार से बचती है। हमने बेंचमार्क नियंत्रण कार्यों पर एल्गोरिथम का प्रयोगात्मक सत्यापन किया तथा वास्तविक Go2 चतुष्पाद रोबोट पर चतुष्पाद और द्विपाद दोनों प्रकार के चलने वाले कार्यों में इसकी प्रभावशीलता प्रदर्शित की।

Takeaways, Limitations

Takeaways:
सिम्युलेटर ग्रेडिएंट दृष्टिकोण की कठिनाइयों को दूर करने के लिए एक कुशल सुदृढीकरण सीखने की विधि प्रस्तुत की गई है।
प्रक्षेप पथ निर्माण और ढाल गणना को अलग करके प्रथम-क्रम नीति अनुकूलन की दक्षता और स्थिरता में सुधार करना।
SHAC की नमूना दक्षता को PPO की सामान्यता के साथ संयोजित करना।
वास्तविक रोबोट प्रयोगों के माध्यम से एल्गोरिथम की प्रभावशीलता का सत्यापन।
मौजूदा एमबीआरएल विधियों के Limitations (पूर्वानुमान त्रुटि संचय) पर काबू पाना।
Limitations:
प्रस्तावित विधि की व्यापकता और उन समस्या क्षेत्रों पर आगे अनुसंधान की आवश्यकता है जिन पर इसे लागू किया जा सकता है।
यह निर्धारित करने के लिए आगे विश्लेषण की आवश्यकता है कि सीखे गए विभेदनीय मॉडल की सटीकता समग्र प्रणाली प्रदर्शन को कैसे प्रभावित करती है।
अधिक जटिल एवं विविध रोबोटिक प्रणालियों और वातावरणों में प्रदर्शन मूल्यांकन की आवश्यकता होती है।
उच्च-आयामी राज्य स्थानों में मापनीयता के आगे सत्यापन की आवश्यकता है।
👍