दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कृत्रिम बुद्धिमत्ता के लिए माप-पद्धति की ओर: छिपे-नियम वातावरण और सुदृढ़ीकरण अधिगम

Created by
  • Haebom

लेखक

क्रिस्टो मैथ्यू, वेंटियन वांग, जैकब फेल्डमैन, लाज़रोस के. गैलोस, पॉल बी. कैंटर, व्लादिमीर मेनकोव, हाओ वांग

रूपरेखा

यह शोधपत्र हिडन रूल गेम (GOHR) परिवेश में सुदृढीकरण अधिगम का अध्ययन करता है। GOHR एक जटिल पहेली है जिसमें एक एजेंट को खेल को जीतने के लिए 6x6 बोर्ड पर खेल के मोहरों को बाल्टियों में रखने हेतु छिपे हुए नियमों का अनुमान लगाना और उन्हें लागू करना होता है। हम दो अवस्था निरूपण रणनीतियों—विशेषता-केंद्रित (FC) और वस्तु-केंद्रित (OC)—का अन्वेषण करते हैं और एक ट्रांसफॉर्मर-आधारित लाभप्रद अभिनेता-आलोचक (A2C) एल्गोरिथम का उपयोग करके एजेंट को प्रशिक्षित करते हैं। एजेंट के पास केवल आंशिक अवलोकन होते हैं और उसे अनुभव के माध्यम से नियामक नियमों का अनुमान लगाना होता है और एक इष्टतम नीति सीखनी होती है। हम मॉडल का मूल्यांकन कई नियम-आधारित और परीक्षण-सूची-आधारित प्रयोगात्मक सेटिंग्स में करते हैं, स्थानांतरण प्रभावों और अधिगम दक्षता पर निरूपणों के प्रभाव का विश्लेषण करते हैं।

Takeaways, Limitations

Takeaways:
हम GOHR जैसे जटिल पहेली वातावरण में ट्रांसफार्मर-आधारित सुदृढीकरण सीखने के एल्गोरिदम की प्रयोज्यता का प्रदर्शन करते हैं।
सीखने की दक्षता पर राज्य प्रतिनिधित्व रणनीति (एफसी बनाम ओसी) के चुनाव के प्रभाव का विश्लेषण करके, हम प्रभावी राज्य प्रतिनिधित्व रणनीतियों को डिजाइन करने में अंतर्दृष्टि प्रदान करते हैं।
हम एजेंट लर्निंग की संभावना प्रस्तुत करते हैं जो आंशिक रूप से अवलोकित वातावरण में नियम अनुमान और नीति लर्निंग को एक साथ निष्पादित करता है।
विभिन्न प्रयोगात्मक व्यवस्थाओं में स्थानांतरण अधिगम प्रभावों का विश्लेषण करके, हम सुदृढीकरण अधिगम एजेंटों की सामान्यीकरण क्षमता के बारे में अपनी समझ को बढ़ाते हैं।
Limitations:
जीओएचआर वातावरण की जटिलता के कारण, सीखने की प्रक्रिया की व्याख्या और विश्लेषण चुनौतीपूर्ण हो सकता है।
अन्य एल्गोरिदम के साथ प्रयुक्त A2C एल्गोरिदम के प्रदर्शन के तुलनात्मक विश्लेषण का अभाव है।
प्रयोगात्मक सेटअप का दायरा सीमित हो सकता है, तथा अधिक विविध वातावरणों और नियमों पर आगे अनुसंधान की आवश्यकता है।
राज्य प्रतिनिधित्व रणनीति के चयन के लिए अधिक गहन विश्लेषण और सैद्धांतिक आधार की आवश्यकता है।
👍