दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ULTHO: गहन सुदृढीकरण अधिगम में अति-हल्का किन्तु कुशल हाइपरपैरामीटर अनुकूलन

Created by
  • Haebom

लेखक

मिंगकी युआन, बो ली, ज़िन जिन, वेनजुन ज़ेंग

रूपरेखा

यह शोधपत्र ULTHO का प्रस्ताव करता है, जो डीप रीइन्फोर्समेंट लर्निंग (DRL) के लिए एक अति-हल्के हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) ढाँचा है। जहाँ मौजूदा HPO पद्धतियाँ कम नमूना दक्षता और उच्च कम्प्यूटेशनल लागतों से ग्रस्त हैं, वहीं ULTHO एक ही बार में तेज़ HPO करने के लिए मल्टी-आर्म्ड बैंडिट (MAB) और क्लस्टर्ड आर्म्स का उपयोग करता है। यह कुशल हाइपरपैरामीटर फ़िल्टरिंग के साथ-साथ दीर्घकालिक रिवॉर्ड ऑप्टिमाइज़ेशन में मात्रात्मक और सांख्यिकीय अंतर्दृष्टि प्रदान करता है। हमने प्रयोगात्मक रूप से ALE, Procgen, MiniGrid और PyBullet जैसे बेंचमार्क पर इसके बेहतर प्रदर्शन का प्रदर्शन किया है। अपनी सरल वास्तुकला के बावजूद, ULTHO उत्कृष्ट प्रदर्शन प्राप्त करता है, जो संभावित रूप से उन्नत स्वचालित RL प्रणालियों के विकास में योगदान देता है।

Takeaways, Limitations

Takeaways:
डीआरएल में एचपीओ समस्या के लिए एक कुशल और प्रभावी समाधान प्रस्तुत करना।
अल्ट्रा-लाइटवेट फ्रेमवर्क ULTHO के साथ कम्प्यूटेशनल लागत कम करें और नमूना दक्षता में सुधार करें।
एकल निष्पादन के भीतर HPO संभव
विभिन्न बेंचमार्क में उत्कृष्ट प्रदर्शन सत्यापित
उन्नत स्वचालित आरएल प्रणालियों के विकास में योगदान दें
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विभिन्न डी.आर.एल. समस्याओं और वातावरणों के लिए प्रयोज्यता सत्यापन आवश्यक है।
ULTHO की जटिलता और मापनीयता का आगे विश्लेषण आवश्यक है।
👍