यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह पत्र निराशावादी पुनरावृत्तीय योजना (PIP) का प्रस्ताव करता है, जो मॉडल अनिश्चितता को ध्यान में रखते हुए, मज़बूत आंशिक रूप से प्रेक्षणीय मार्कोव निर्णय प्रक्रियाओं (POMDP) के लिए एक नया ढाँचा है। PIP एक मज़बूत नीति की गणना करता है जो संक्रमण और प्रेक्षण फलनों के बारे में अनिश्चितता समुच्चयों का उपयोग करके सबसे खराब स्थिति वाले संभाव्य उदाहरणों पर विचार करती है। PIP पुनरावृत्तीय रूप से सबसे खराब स्थिति वाले संभाव्य उदाहरण का चयन करता है और उसके परिमित-अवस्था नियंत्रक (FSC) की गणना करता है। इस पत्र में, हम rFSCNet एल्गोरिथम का प्रस्ताव करते हैं, जो FSC की गणना के लिए आवर्तक तंत्रिका नेटवर्क को अनुकूलित करता है। प्रायोगिक परिणाम दर्शाते हैं कि rFSCNet मज़बूत नीतियों की गणना में मौजूदा विधियों से बेहतर प्रदर्शन करता है।
____T633_____, ____T634_____
•
Takeaways:
◦
मॉडल अनिश्चितता को ध्यान में रखते हुए मजबूत POMDP समस्या का एक प्रभावी समाधान।
◦
आरएफएससीनेट एल्गोरिदम मजबूत नीति गणना को सक्षम बनाता है जो मौजूदा तरीकों से बेहतर प्रदर्शन करता है।
◦
आवर्ती तंत्रिका नेटवर्क का उपयोग करके परिमित-अवस्था नियंत्रकों को कुशलतापूर्वक सीखना।
•
Limitations:
◦
प्रस्तावित विधि की कम्प्यूटेशनल जटिलता के स्पष्ट विश्लेषण का अभाव।
◦
विभिन्न प्रकार के अनिश्चितता सेटों की सामान्यीकरणता पर आगे अनुसंधान की आवश्यकता है।