[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

निरंतर सुदृढीकरण सीखने की नींव पर पुनर्विचार

Created by
  • Haebom

लेखक

एसरा एलेलिमी, डेविड सेपेस्वरी, मार्था व्हाइट, माइकल बॉलिंग

रूपरेखा

यह पत्र सुदृढीकरण अधिगम (RL) और सतत सुदृढीकरण अधिगम (CRL) के पारंपरिक दृष्टिकोण के बीच अंतर का विश्लेषण करता है, और CRL के लिए उपयुक्त एक नई औपचारिकता का प्रस्ताव करता है। जहाँ पारंपरिक RL एक इष्टतम नीति मिलने के बाद सीखना बंद कर देता है, वहीं CRL का लक्ष्य निरंतर अधिगम और अनुकूलन है। हमारा तर्क है कि पारंपरिक RL के चार स्तंभ, अर्थात् मार्कोव निर्णय प्रक्रियाएँ (MDP), समय-स्वतंत्र कलाकृतियों पर ध्यान, एक अपेक्षित-पुरस्कार योग मूल्यांकन मीट्रिक, और इन स्तंभों का पालन करने वाला एक प्रकरण-आधारित बेंचमार्क वातावरण, CRL के लक्ष्यों के साथ संघर्ष में हैं। हम एक नई औपचारिकता का प्रस्ताव करते हैं जो पारंपरिक RL के पहले और तीसरे स्तंभों को इतिहास प्रक्रिया और सतत अधिगम के लिए उपयुक्त एक नए विचलन पछतावा मूल्यांकन मीट्रिक से प्रतिस्थापित करती है,

Takeaways, Limitations

Takeaways:
यह स्पष्ट रूप से बताते हुए कि मौजूदा आरएल का पारंपरिक आधार सीआरएल के लिए अनुपयुक्त है, हम सीआरएल अनुसंधान के लिए एक नई दिशा का सुझाव देते हैं।
हम सीआरएल के लिए उपयुक्त एक नवीन औपचारिकता (इतिहास प्रक्रिया और विचलन खेद) का प्रस्ताव देकर सीआरएल अनुसंधान में महत्वपूर्ण योगदान देते हैं।
यह मौजूदा आरएल की सीमाओं पर काबू पाता है और सीआरएल के विकास के लिए एक नई शोध दिशा का सुझाव देता है।
Limitations:
प्रस्तावित नई औपचारिकता की व्यावहारिक प्रयोज्यता और दक्षता की जांच के लिए आगे के अध्ययन की आवश्यकता है।
शेष दो स्तंभों (समय-स्वतंत्र कलाकृतियों और एपिसोडिक-आधारित बेंचमार्क वातावरण पर ध्यान केंद्रित करना) को कैसे बेहतर बनाया जाए, इस पर विशिष्ट पद्धतिगत सुझावों का अभाव है।
प्रस्तावित विचलन खेद की गणनागत जटिलता और इसके व्यावहारिक अनुप्रयोग की कठिनाई पर चर्चा का अभाव है।
👍