दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सुदृढीकरण सीखने में अमूर्तता और क्षमता-आधारित पुरस्कार आकार देने की नमूना दक्षता पर

Created by
  • Haebom

लेखक

ग्यूसेप कैनोनाको, लियो आर्डन, अल्बर्टो पॉज़ैंको, डैनियल बोरराजो

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम (RL) में नमूना अकुशलता की समस्या के समाधान हेतु संभाव्यता-आधारित पुरस्कार आकार देने (PBRS) के उपयोग का अन्वेषण करता है। हम एक उपयुक्त अव्यक्त फलन के चयन की कठिनाई और गणना संबंधी सीमाओं के कारण एक परिमित क्षितिज के उपयोग में निहित पूर्वाग्रह पर प्रकाश डालते हैं। इसके बाद, हम एक सैद्धांतिक तर्क प्रस्तुत करते हैं कि अव्यक्त फलन के रूप में एक इष्टतम मान फलन का चयन करने से प्रदर्शन में सुधार क्यों होता है। हम PBRS में एक परिमित क्षितिज द्वारा प्रेरित पूर्वाग्रह का विश्लेषण करते हैं और, इष्टतम मान फलन का अनुमान लगाने के लिए अमूर्तता का लाभ उठाकर, चार वातावरणों में PBRS की नमूना दक्षता और प्रदर्शन प्रभाव का मूल्यांकन करते हैं, जिसमें एक लक्ष्य-निर्देशित नेविगेशन कार्य और तीन आर्केड अधिगम वातावरण (ALE) गेम शामिल हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि एक सरल, पूर्णतः-संयोजित नेटवर्क, CNN-आधारित समाधान के बराबर प्रदर्शन प्राप्त कर सकता है।

____T42681_____, Limitations

Takeaways: हम सैद्धांतिक आधार प्रस्तुत करते हैं और PBRS का प्रयोगात्मक सत्यापन करते हैं, जो इष्टतम मान फलन को एक अव्यक्त फलन के रूप में उपयोग करता है, ताकि बेहतर नमूना दक्षता और प्रदर्शन के लिए इसकी क्षमता प्रदर्शित की जा सके। हम एक सरल नेटवर्क के साथ CNN-आधारित समाधानों के तुलनीय प्रदर्शन प्राप्त करने की क्षमता प्रदर्शित करते हैं।
Limitations: प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। विविध वातावरणों और जटिल कार्यों के लिए आगे प्रयोगात्मक सत्यापन आवश्यक है। परिमित क्षितिज के कारण पूर्वाग्रह समस्या का पूर्ण समाधान प्रस्तुत नहीं किया गया है।
👍