दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सुदृढीकरण सीखने में विरल पुरस्कारों को आकार देना: एक अर्ध-पर्यवेक्षित दृष्टिकोण

Created by
  • Haebom

लेखक

वेन्युन ली, वेन्जी हुआंग, चेन सन

रूपरेखा

यह पत्र वास्तविक दुनिया के परिदृश्यों में, जहाँ पुरस्कार संकेत अत्यंत दुर्लभ हैं, एक प्रभावी पुरस्कार फलन सीखने की चुनौती का समाधान करने के लिए एक प्रस्तावित विधि प्रस्तुत करता है। प्रस्तावित विधि शून्य-पुरस्कार संक्रमण सहित सभी संक्रमणों का उपयोग करके पुरस्कार निर्माण करती है। विशेष रूप से, यह अर्ध-पर्यवेक्षित अधिगम (SSL) और एक नवीन डेटा संवर्द्धन तकनीक को मिलाकर शून्य-पुरस्कार संक्रमण से प्रक्षेप पथ निरूपण सीखती है, जिससे पुरस्कार निर्माण की दक्षता में वृद्धि होती है। अटारी गेम्स और रोबोट हेरफेर पर प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि पुरस्कार अनुमान में पर्यवेक्षित अधिगम-आधारित विधियों से बेहतर प्रदर्शन करती है और एजेंट स्कोर में सुधार करती है। विशेष रूप से, ऐसे वातावरण में जहाँ पुरस्कार और भी दुर्लभ हैं, प्रस्तावित विधि अपनी श्रेणी में सर्वश्रेष्ठ स्कोर प्राप्त करती है जो मौजूदा विधियों की तुलना में दोगुना तक होता है। प्रस्तावित द्वि-एन्ट्रॉपी डेटा संवर्द्धन तकनीक प्रदर्शन में उल्लेखनीय रूप से सुधार करती है, और अपनी श्रेणी में सर्वश्रेष्ठ स्कोर प्राप्त करती है जो अन्य संवर्द्धन विधियों की तुलना में 15.8% अधिक है।

Takeaways, Limitations

Takeaways:
दुर्लभ पुरस्कार वातावरण में प्रभावी पुरस्कार निर्माण के लिए एक नवीन विधि प्रस्तुत की गई है।
अर्ध-पर्यवेक्षित शिक्षण और डेटा संवर्द्धन का उपयोग करके शून्य-पुरस्कार हस्तांतरण जानकारी का दोहन करना।
अटारी गेम और रोबोट हेरफेर प्रयोगों में मौजूदा तरीकों की तुलना में बेहतर प्रदर्शन का प्रदर्शन किया।
डबल एन्ट्रॉपी डेटा संवर्द्धन तकनीकों की प्रभावशीलता का सत्यापन।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का मूल्यांकन करने के लिए आगे और प्रयोगों की आवश्यकता है।
विभिन्न प्रकार के दुर्लभ पुरस्कार वातावरणों के लिए प्रयोज्यता सत्यापन आवश्यक है।
डेटा संवर्द्धन तकनीकों के लिए इष्टतम पैरामीटर निर्धारित करने पर अनुसंधान की आवश्यकता है।
👍