दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पुरस्कार कार्यों में कौन सी मौलिक संरचना कुशल विरल-पुरस्कार सीखने को सक्षम बनाती है?

Created by
  • Haebom

लेखक

इब्ने फ़राबी शिहाब, संजेदा अख्तर, अनुज शर्मा

रूपरेखा

यह शोधपत्र विरल-पुरस्कार सुदृढीकरण अधिगम (RL) की चुनौतियों का समाधान करने के लिए एक नवीन संरचनात्मक पुरस्कार अधिगम ढाँचा, नीति-जागरूक मैट्रिक्स पूर्णता (PAMC) प्रस्तुत करता है। PAMC नीति-पक्षपाती प्रतिचयन के अंतर्गत पुरस्कार मैट्रिक्स की अनुमानित निम्न-आयामी और विरल संरचना का उपयोग करता है। यह पुनर्प्राप्ति गारंटी सिद्ध करने के लिए पश्च-प्रवण भारों का उपयोग करता है और एक विज़िट-भारित त्रुटि-पछतावा सीमा स्थापित करता है जो पूर्णता त्रुटि को नियंत्रण प्रदर्शन से जोड़ता है। जब यह धारणा कमजोर होती है, तो PAMC सुरक्षित रूप से अन्वेषण पर लौटने के लिए विश्वास अंतराल को चौड़ा करता है और एल्गोरिथम को रोक देता है। प्रयोगात्मक रूप से, PAMC अटारी-26, DM कंट्रोल, मेटावर्ल्ड MT50, D4RL ऑफ़लाइन RL, और बेसलाइन RL बेंचमार्क पर नमूना दक्षता में सुधार करता है, और कम्प्यूटेशनल रेगुलराइज़ेशन तुलनाओं में DrQ-v2, DreamerV3, Agent57, T-REX/D-REX, और PrefPPO से बेहतर प्रदर्शन करता है। ये परिणाम संरचनात्मक पुरस्कारों की उपस्थिति में PAMC को एक व्यावहारिक और सिद्धांतबद्ध उपकरण के रूप में उजागर करते हैं और व्यापक संरचनात्मक पुरस्कार सीखने के परिप्रेक्ष्य के पहले ठोस उदाहरण के रूप में कार्य करते हैं।

____T9822_____, Limitations

Takeaways:
हम दिखाते हैं कि विरल-इनाम सुदृढीकरण सीखने की नमूना दक्षता को नीति-पक्षपाती नमूनाकरण के तहत भी इनाम मैट्रिक्स की कम-आयामी + विरल संरचना का उपयोग करके सुधारा जा सकता है।
हम व्युत्क्रम-प्रवृत्ति भार और यात्रा-भारित त्रुटि-अफसोस सीमाओं के माध्यम से सैद्धांतिक औचित्य प्रस्तुत करते हैं।
हम ऐसे प्रायोगिक परिणाम प्रस्तुत करते हैं जो विभिन्न मानकों में मौजूदा विधियों से बेहतर प्रदर्शन करते हैं।
यह संरचनात्मक पुरस्कार अधिगम नामक एक नया परिप्रेक्ष्य प्रस्तुत करता है तथा इसके लिए एक विशिष्ट पद्धति प्रदान करता है।
Limitations:
इसके लिए यह धारणा आवश्यक है कि पुरस्कार मैट्रिक्स की संरचना लगभग निम्न-आयामी + विरल है, और यह धारणा हमेशा संतुष्ट नहीं होती है।
यदि धारणा कमजोर हो जाती है, तो एल्गोरिथम रुक जाता है और सुरक्षित रूप से अन्वेषण पर वापस लौट आता है, लेकिन इससे प्रदर्शन में गिरावट आ सकती है।
प्रायोगिक परिणाम एक विशिष्ट बेंचमार्क तक सीमित हैं, तथा अन्य वातावरणों में प्रदर्शन भिन्न हो सकता है।
👍