दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्रिया-मूल्य लौकिक-अंतर विधियों का विश्लेषण जो अवस्था मानों को सीखते हैं

Created by
  • Haebom

लेखक

ब्रेट डेली, प्रभात नागराजन, मार्था व्हाइट, मार्लोस सी. मचाडो

रूपरेखा

यह पत्र टेम्पोरल-डिफरेंस लर्निंग (TD) में बूटस्ट्रैपिंग (पिछले मान पूर्वानुमानों का उपयोग करके नए मान पूर्वानुमान उत्पन्न करना) की विशेषताओं पर केंद्रित है, और अधिकांश TD नियंत्रण विधियाँ एकल क्रिया-मान फ़ंक्शन (जैसे, Q-लर्निंग, Sarsa) से बूटस्ट्रैपिंग का उपयोग करती हैं। इसके विपरीत, मध्यवर्ती चरणों के रूप में अवस्था मानों का उपयोग करके क्रिया मान सीखने के लिए दो असममित मान फ़ंक्शन (जैसे, QV-लर्निंग या AV-लर्निंग) का उपयोग करने वाले तरीकों पर अपेक्षाकृत कम ध्यान दिया गया है। यह पत्र अभिसरण और नमूनाकरण दक्षता के संदर्भ में इन एल्गोरिथम परिवारों का विश्लेषण करता है, और यह बताता है कि जबकि दोनों परिवार भविष्यवाणी सेटिंग में अपेक्षित Sarsa से अधिक कुशल हैं, केवल AV-लर्निंग ही नियंत्रण सेटिंग में Q-लर्निंग पर एक महत्वपूर्ण लाभ प्रदान करता है।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि AV-लर्निंग विधियां जो एकल क्रिया-मूल्य फ़ंक्शन के बजाय दो असममित मूल्य फ़ंक्शनों का उपयोग करती हैं, नियंत्रण सेटिंग्स में Q-लर्निंग की तुलना में अधिक कुशल हो सकती हैं।
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि नया AV-लर्निंग एल्गोरिदम, RDQ, मौजूदा ड्यूलिंग DQN से बेहतर प्रदर्शन करता है।
पूर्वानुमानित सेटिंग में, QV-लर्निंग और AV-लर्निंग दोनों को अपेक्षित सारसा की तुलना में अधिक कुशल दिखाया गया है।
Limitations:
क्यूवी-लर्निंग और एवी-लर्निंग के फायदे और नुकसान का विश्लेषण सीमित हो सकता है। ये केवल कुछ खास वातावरणों या समस्याओं में ही प्रभावी हो सकते हैं।
RDQ के प्रदर्शन में सुधार MinAtar बेंचमार्क तक सीमित हो सकता है और अन्य वातावरणों में सामान्यीकृत नहीं हो सकता है।
इस पत्र में प्रस्तुत विश्लेषण विशिष्ट एल्गोरिदम और बेंचमार्क तक सीमित है, और इसलिए इसके लिए अधिक व्यापक प्रयोगात्मक सत्यापन की आवश्यकता है।
👍