यह शोधपत्र ULTHO का प्रस्ताव करता है, जो डीप रीइन्फोर्समेंट लर्निंग (DRL) के लिए एक अति-हल्के हाइपरपैरामीटर ऑप्टिमाइज़ेशन (HPO) ढाँचा है। जहाँ मौजूदा HPO पद्धतियाँ कम नमूना दक्षता और उच्च कम्प्यूटेशनल लागतों से ग्रस्त हैं, वहीं ULTHO एक ही बार में तेज़ HPO करने के लिए मल्टी-आर्म्ड बैंडिट (MAB) और क्लस्टर्ड आर्म्स का उपयोग करता है। यह कुशल हाइपरपैरामीटर फ़िल्टरिंग के साथ-साथ दीर्घकालिक रिवॉर्ड ऑप्टिमाइज़ेशन में मात्रात्मक और सांख्यिकीय अंतर्दृष्टि प्रदान करता है। हमने प्रयोगात्मक रूप से ALE, Procgen, MiniGrid और PyBullet जैसे बेंचमार्क पर इसके बेहतर प्रदर्शन का प्रदर्शन किया है। अपनी सरल वास्तुकला के बावजूद, ULTHO उत्कृष्ट प्रदर्शन प्राप्त करता है, जो संभावित रूप से उन्नत स्वचालित RL प्रणालियों के विकास में योगदान देता है।