दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

औसत-पुरस्कार नरम अभिनेता-आलोचक

Created by
  • Haebom

लेखक

जैकब एडमज़िक, वलोडिमिर मकारेंको, स्टास टियोमकिन, राहुल वी. कुलकर्णी

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम (RL) के लिए औसत-पुरस्कार सूत्रीकरणों में हाल ही में बढ़ती रुचि को संबोधित करता है जो दीर्घकालिक समस्याओं को बिना किसी छूट के हल कर सकते हैं। छूट प्राप्त परिस्थितियों में, एन्ट्रॉपी-नियामक एल्गोरिदम विकसित किए गए हैं, जो नियतात्मक विधियों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। हालाँकि, एन्ट्रॉपी-नियामक औसत-पुरस्कार उद्देश्यों को लक्षित करने वाले गहन RL एल्गोरिदम विकसित नहीं किए गए हैं। इस कमी को पूरा करने के लिए, यह शोधपत्र एक औसत-पुरस्कार सॉफ्ट एक्टर-क्रिटिक एल्गोरिदम प्रस्तावित करता है। हम मानक RL बेंचमार्क पर मौजूदा औसत-पुरस्कार एल्गोरिदम के साथ तुलना करके अपनी विधि का सत्यापन करते हैं, जिससे औसत-पुरस्कार मानदंड के लिए बेहतर प्रदर्शन प्राप्त होता है।

Takeaways, Limitations

Takeaways: हम औसत पुरस्कार उद्देश्यों के एन्ट्रॉपी-नियमन के लिए एक नवीन गहन सुदृढीकरण अधिगम एल्गोरिथम (औसत पुरस्कार सॉफ्ट एक्टर-क्रिटिक) प्रस्तुत करते हैं, जो मानक RL बेंचमार्क पर मौजूदा एल्गोरिथम से बेहतर प्रदर्शन करके औसत पुरस्कार सूत्रीकरण की प्रभावशीलता को प्रदर्शित करता है। हम एक्टर-क्रिटिक ढाँचे का उपयोग करके औसत पुरस्कार समस्या को हल करने के लिए एक नवीन दृष्टिकोण प्रस्तुत करते हैं।
Limitations: प्रस्तुत एल्गोरिथम का प्रदर्शन एक विशिष्ट बेंचमार्क तक सीमित हो सकता है। विभिन्न वातावरणों में इसके सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। एल्गोरिथम की गणना लागत और जटिलता का विश्लेषण उपलब्ध नहीं है।
👍