औसत-पुरस्कार नरम अभिनेता-आलोचक

Created by

Haebom

लेखक

जैकब एडमज़िक, वलोडिमिर मकारेंको, स्टास टियोमकिन, राहुल वी. कुलकर्णी

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम (RL) के लिए औसत-पुरस्कार सूत्रीकरणों में हाल ही में बढ़ती रुचि को संबोधित करता है जो दीर्घकालिक समस्याओं को बिना किसी छूट के हल कर सकते हैं। छूट प्राप्त परिस्थितियों में, एन्ट्रॉपी-नियामक एल्गोरिदम विकसित किए गए हैं, जो नियतात्मक विधियों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। हालाँकि, एन्ट्रॉपी-नियामक औसत-पुरस्कार उद्देश्यों को लक्षित करने वाले गहन RL एल्गोरिदम विकसित नहीं किए गए हैं। इस कमी को पूरा करने के लिए, यह शोधपत्र एक औसत-पुरस्कार सॉफ्ट एक्टर-क्रिटिक एल्गोरिदम प्रस्तावित करता है। हम मानक RL बेंचमार्क पर मौजूदा औसत-पुरस्कार एल्गोरिदम के साथ तुलना करके अपनी विधि का सत्यापन करते हैं, जिससे औसत-पुरस्कार मानदंड के लिए बेहतर प्रदर्शन प्राप्त होता है।

Takeaways, Limitations

•

Takeaways: हम औसत पुरस्कार उद्देश्यों के एन्ट्रॉपी-नियमन के लिए एक नवीन गहन सुदृढीकरण अधिगम एल्गोरिथम (औसत पुरस्कार सॉफ्ट एक्टर-क्रिटिक) प्रस्तुत करते हैं, जो मानक RL बेंचमार्क पर मौजूदा एल्गोरिथम से बेहतर प्रदर्शन करके औसत पुरस्कार सूत्रीकरण की प्रभावशीलता को प्रदर्शित करता है। हम एक्टर-क्रिटिक ढाँचे का उपयोग करके औसत पुरस्कार समस्या को हल करने के लिए एक नवीन दृष्टिकोण प्रस्तुत करते हैं।

•

Limitations: प्रस्तुत एल्गोरिथम का प्रदर्शन एक विशिष्ट बेंचमार्क तक सीमित हो सकता है। विभिन्न वातावरणों में इसके सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। एल्गोरिथम की गणना लागत और जटिलता का विश्लेषण उपलब्ध नहीं है।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

औसत-पुरस्कार नरम अभिनेता-आलोचक

लेखक

रूपरेखा

Takeaways, Limitations