[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एक्सपो: अभिव्यंजक नीतियों के साथ स्थिर सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

पेरी डोंग, कियांग ली, डोर्सा सैडिघ, चेल्सी फिन

रूपरेखा

यह शोधपत्र ऑफ़लाइन डेटासेट का उपयोग करके ऑनलाइन सुदृढीकरण अधिगम (RL) के साथ अभिव्यंजक नीतियों को सीखने और उनके सूक्ष्म समायोजन की समस्या का समाधान करता है। अभिव्यंजक नीतियाँ (जैसे प्रसार और प्रवाह-मिलान नीतियाँ) लंबी शोर-निरोध श्रृंखलाओं द्वारा पैरामीटरित होती हैं, जिससे स्थिर मान को अधिकतम करना मुश्किल हो जाता है। इस समस्या के समाधान के लिए, यह शोधपत्र एक ऐसी ऑनलाइन RL नीति के निर्माण की विधि प्रस्तावित करता है जो अभिव्यंजक नीति के साथ मान को सीधे अनुकूलित करने के बजाय Q-मान को अधिकतम करती है। विशेष रूप से, हम 'अभिव्यंजक नीति अनुकूलन (EXPO)' नामक एक एल्गोरिथम प्रस्तावित करते हैं जो एक स्थिर अनुकरण अधिगम उद्देश्य वाली पूर्व-प्रशिक्षित अभिव्यंजक आधार नीति और एक हल्की गाऊसी संपादन नीति का उपयोग करता है जो मान वितरण को बढ़ाती है। EXPO सीखी गई संपादन नीति के साथ आधार नीति से नमूना ली गई क्रियाओं को अनुकूलित करता है, और नमूनाकरण और टेम्पोरल लैग (TD) बैकअप, दोनों के लिए आधार और संपादित क्रियाओं में से मान को अधिकतम करने वाली क्रिया का चयन करता है।

Takeaways, Limitations

Takeaways:
ऑफ़लाइन डेटा का उपयोग करके अभिव्यंजक नीतियों के लिए एक कुशल ऑनलाइन सुदृढीकरण सीखने की विधि प्रस्तुत करना
पूर्व-प्रशिक्षित नीतियों को बेहतर बनाकर और ऑफ़लाइन डेटा का लाभ उठाकर ऑनलाइन शिक्षण प्रदर्शन में सुधार (2-3 गुना तक सुधार)
स्थिर मूल्य अधिकतमीकरण के लिए एक नवीन दृष्टिकोण (ऑनलाइन नीति के माध्यम से क्यू-मूल्य अधिकतमीकरण)
Limitations:
EXPO एल्गोरिथम का प्रदर्शन आधार नीति की अभिव्यक्तिशीलता और अनुकरण अधिगम के प्रदर्शन पर निर्भर हो सकता है।
हल्के गौसियन संपादन नीतियों के डिजाइन और पैरामीटरीकरण पर आगे अनुसंधान की आवश्यकता हो सकती है।
विविध वातावरणों और जटिल कार्यों में सामान्यीकरण प्रदर्शन पर आगे सत्यापन की आवश्यकता है।
👍