दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भ्रमित ऑफ़लाइन डेटा से स्वचालित पुरस्कार आकार

Created by
  • Haebom

लेखक

मिंगक्सुआन ली, जुन्झे झांग, एलियास बरेइनबोइम

रूपरेखा

यह पत्र कृत्रिम बुद्धिमत्ता में एक मुख्य चुनौती को संबोधित करता है: अज्ञात वातावरण में एजेंटों को नियंत्रित करने और प्रदर्शन मेट्रिक्स को अनुकूलित करने के लिए प्रभावी नीति सीखना। ऑफ-पॉलिसी लर्निंग विधियां, जैसे कि क्यू-लर्निंग, शिक्षार्थियों को पिछले अनुभव के आधार पर इष्टतम निर्णय लेने की अनुमति देती हैं। यह पत्र जटिल, उच्च-आयामी डोमेन में पक्षपाती डेटा से ऑफ-पॉलिसी लर्निंग का अध्ययन करता है जहां अप्रत्याशित भ्रमित चर को पहले से बाहर नहीं किया जा सकता है। प्रसिद्ध डीप क्यू-नेटवर्क (DQN) के आधार पर, हम एक उपन्यास डीप रीइन्फोर्समेंट लर्निंग एल्गोरिदम का प्रस्ताव करते हैं जो देखे गए डेटा भ्रमित पूर्वाग्रहों के लिए मजबूत है। विशेष रूप से, एल्गोरिदम सबसे खराब स्थिति वाले वातावरण के लिए एक सुरक्षित नीति खोजने का प्रयास करता है जो अवलोकनों के अनुकूल हो।

Takeaways, Limitations

Takeaways: हम एक नया एल्गोरिथम प्रस्तुत करते हैं जो अप्रमाणित कन्फ़ाउंडिंग वेरिएबल्स वाले जटिल वातावरणों में ऑफ-पॉलिसी रीइन्फोर्समेंट लर्निंग के प्रदर्शन को बेहतर बनाता है। प्रस्तावित एल्गोरिथम अटारी गेम्स पर पारंपरिक DQN से बेहतर प्रदर्शन करता है। सबसे खराब स्थिति वाले वातावरणों के लिए एक सुरक्षित नीति खोजने का तरीका कन्फ़ाउंडिंग पूर्वाग्रह के विरुद्ध मजबूती बढ़ाने में प्रभावी साबित हुआ है।
Limitations: प्रस्तावित एल्गोरिथम का प्रदर्शन मूल्यांकन अटारी गेम्स तक सीमित है, और अन्य प्रकार के वातावरणों या समस्याओं पर इसकी सामान्यता के लिए और अधिक शोध की आवश्यकता है। ऐसे दृष्टिकोण जो बिना देखे गए भ्रामक चरों का स्पष्ट रूप से मॉडलिंग किए, सबसे खराब स्थिति की कल्पना करते हैं, रूढ़िवादी नीतियों का परिणाम हो सकते हैं। वास्तविक दुनिया की परिस्थितियों में प्रयोज्यता और दक्षता का और अधिक सत्यापन आवश्यक है।
👍