दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मजबूत POMDP के लिए RNNs के साथ निराशावादी पुनरावृत्तीय योजना

Created by
  • Haebom

लेखक

मैरिस एफएल गैलेसलूट, मार्निक्स सुइलेन, थियागो डी. सिम एओ, स्टीवन कैर, मैथिज्स टीजे स्पान, उफुक टोपकु, निल्स जानसन

रूपरेखा

यह पत्र निराशावादी पुनरावृत्तीय योजना (PIP) का प्रस्ताव करता है, जो मॉडल अनिश्चितता को ध्यान में रखते हुए, मज़बूत आंशिक रूप से प्रेक्षणीय मार्कोव निर्णय प्रक्रियाओं (POMDP) ​​के लिए एक नया ढाँचा है। PIP एक मज़बूत नीति की गणना करता है जो संक्रमण और प्रेक्षण फलनों के बारे में अनिश्चितता समुच्चयों का उपयोग करके सबसे खराब स्थिति वाले संभाव्य उदाहरणों पर विचार करती है। PIP पुनरावृत्तीय रूप से सबसे खराब स्थिति वाले संभाव्य उदाहरण का चयन करता है और उसके परिमित-अवस्था नियंत्रक (FSC) की गणना करता है। इस पत्र में, हम rFSCNet एल्गोरिथम का प्रस्ताव करते हैं, जो FSC की गणना के लिए आवर्तक तंत्रिका नेटवर्क को अनुकूलित करता है। प्रायोगिक परिणाम दर्शाते हैं कि rFSCNet मज़बूत नीतियों की गणना में मौजूदा विधियों से बेहतर प्रदर्शन करता है।

____T633_____, ____T634_____

Takeaways:
मॉडल अनिश्चितता को ध्यान में रखते हुए मजबूत POMDP समस्या का एक प्रभावी समाधान।
आरएफएससीनेट एल्गोरिदम मजबूत नीति गणना को सक्षम बनाता है जो मौजूदा तरीकों से बेहतर प्रदर्शन करता है।
आवर्ती तंत्रिका नेटवर्क का उपयोग करके परिमित-अवस्था नियंत्रकों को कुशलतापूर्वक सीखना।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल जटिलता के स्पष्ट विश्लेषण का अभाव।
विभिन्न प्रकार के अनिश्चितता सेटों की सामान्यीकरणता पर आगे अनुसंधान की आवश्यकता है।
प्रयोगात्मक मूल्यांकन का दायरा सीमित हो सकता है।
👍