[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सतत नियंत्रण में धीमी निर्णय आवृत्तियों पर काबू पाना: मॉडल-मुक्त नियंत्रण के लिए मॉडल-आधारित अनुक्रम सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

देवधर पटेल, हवा सीगलमैन

रूपरेखा

इस पत्र में, हम अनुक्रम सुदृढीकरण अधिगम (SRL) नामक एक नवीन सुदृढीकरण अधिगम एल्गोरिथ्म प्रस्तुत करते हैं। SRL को किसी दिए गए इनपुट अवस्था के लिए क्रियाओं का एक क्रम उत्पन्न करने के लिए डिज़ाइन किया गया है, जिससे कम निर्णय आवृत्तियों पर भी प्रभावी नियंत्रण संभव होता है। हम विभिन्न समय पैमानों पर मॉडल और क्रिया-आलोचक आर्किटेक्चर का उपयोग करके क्रिया अनुक्रमों को सीखने की कठिनाई का समाधान करते हैं। विशेष रूप से, हम एक "टेम्पोरल रीप्ले" तंत्र का प्रस्ताव करते हैं जिसमें आलोचक मूल क्रियाओं के बीच मध्यवर्ती अवस्थाओं का अनुमान लगाने के लिए मॉडल का उपयोग करता है, और अनुक्रम में प्रत्येक क्रिया के लिए अधिगम संकेत प्रदान करता है। अधिगम पूरा होने के बाद, क्रिया जनरेटर मॉडल से स्वतंत्र रूप से क्रिया अनुक्रम उत्पन्न करता है, जिससे निम्न आवृत्तियों पर मॉडल-मुक्त नियंत्रण प्राप्त होता है। विभिन्न निर्णय आवृत्तियों पर प्रदर्शन का बेहतर मूल्यांकन करने के लिए, हम आवृत्ति-औसत स्कोर (FAS) मीट्रिक प्रस्तुत करते हैं, और सतत नियंत्रण कार्यों में मौजूदा एल्गोरिदम पर SRL की श्रेष्ठता प्रदर्शित करते हैं।

____T14962_____, Limitations

Takeaways:
हम एक सुदृढीकरण सीखने का एल्गोरिदम प्रस्तुत करते हैं जो कम निर्णय आवृत्तियों पर भी उच्च प्रदर्शन प्राप्त करता है।
यह मॉडल-आधारित ऑनलाइन नियोजन एल्गोरिदम की तुलना में समान प्रदर्शन प्राप्त करते हुए नमूना जटिलता को महत्वपूर्ण रूप से कम करता है।
हम विभिन्न निर्णय आवृत्तियों पर प्रदर्शन की तुलना करने के लिए आवृत्ति औसत स्कोर (FAS) नामक एक नए मूल्यांकन मीट्रिक का प्रस्ताव करते हैं।
वास्तविक वातावरण में प्रयोज्यता बढ़ जाती है।
Limitations:
प्रस्तावित एल्गोरिथम के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विभिन्न वातावरणों में आगे के प्रदर्शन मूल्यांकन की आवश्यकता है।
कालिक पुनरुत्पादन तंत्र की दक्षता का अधिक गहन विश्लेषण आवश्यक है।
👍