दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जोखिम-विरोधी विवश सुदृढीकरण सीखने के लिए आशावादी अन्वेषण

Created by
  • Haebom

लेखक

जेम्स मैक्कार्थी, राडू मैरिनेस्कु, एलिजाबेथ डेली, इवाना डस्पारिक

रूपरेखा

यह शोधपत्र जोखिम-प्रतिकूल बाध्य सुदृढीकरण अधिगम (RaCRL) में रूढ़िवादी अन्वेषण की समस्या का समाधान करने के लिए आशावादी जोखिम-प्रतिकूल अभिनेता-आलोचक (ORAC) एल्गोरिथम प्रस्तावित करता है, जो उप-इष्टतम नीति अभिसरण की ओर ले जाता है। ORAC एक अन्वेषण नीति का निर्माण करता है जो अवस्था-क्रिया पुरस्कार-मूल्य फलन के ऊपरी विश्वास अंतराल को अधिकतम करता है और जोखिम-प्रतिकूल अवस्था-क्रिया लागत-मूल्य फलन के निम्न विश्वास अंतराल को न्यूनतम करता है। यह सुरक्षा बाधाओं को संतुष्ट करते हुए उच्च-प्रतिकूल अवस्थाओं की खोज के लिए अनिश्चित क्षेत्रों के अन्वेषण को प्रोत्साहित करता है, और सेफ्टी-जिम्नेजियम और सिटीलर्न जैसे सतत नियंत्रण कार्यों में मौजूदा विधियों की तुलना में बेहतर पुरस्कार-लागत व्यापार-नापसंद प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन खोज-आधारित दृष्टिकोण प्रस्तुत करते हैं जो जोखिम-विरोधी बाध्य सुदृढीकरण सीखने में उप-इष्टतम नीतियों के अभिसरण की समस्या को प्रभावी ढंग से संबोधित करता है।
नीतिगत शिक्षा से अनिश्चित पर्यावरणीय क्षेत्रों का प्रभावी ढंग से पता लगाना तथा पुरस्कारों को अधिकतम करते हुए सुरक्षा बाधाओं को पूरा करना संभव है।
सेफ्टी-जिम्नेज़ियम और सिटीलर्न जैसे विभिन्न निरंतर नियंत्रण कार्यों में प्रदर्शन सुधार का प्रयोगात्मक प्रदर्शन किया गया।
यह पुरस्कार और जोखिम के बीच एक कुशल संतुलन प्रदान करता है।
Limitations:
प्रस्तावित एल्गोरिथम का प्रदर्शन विशिष्ट वातावरणों पर निर्भर हो सकता है। विभिन्न वातावरणों में इसके सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
ऊपरी और निचले विश्वास अंतरालों का सटीक अनुमान एल्गोरिथम के प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है। विश्वास अंतराल अनुमान विधियों में सुधार की आवश्यकता है।
जटिल वातावरण में कम्प्यूटेशनल लागत अधिक हो सकती है। कम्प्यूटेशनल दक्षता में सुधार के लिए अनुसंधान की आवश्यकता है।
👍