सुदृढीकरण अधिगम हाइपरपैरामीटर के प्रति अत्यधिक संवेदनशील होता है, जिससे अस्थिरता और अकुशलता उत्पन्न होती है। इस समस्या के समाधान के लिए, हाइपरपैरामीटर अनुकूलन (HPO) एल्गोरिदम विकसित किए गए हैं। जनसंख्या-आधारित प्रशिक्षण (PBT) एक ऐसा एल्गोरिदम है जिसने निश्चित सेटिंग्स के बजाय हाइपरपैरामीटर अनुसूचियाँ उत्पन्न करने की अपनी क्षमता के लिए ध्यान आकर्षित किया है। PBT विभिन्न हाइपरपैरामीटर वाले कई एजेंटों को प्रशिक्षित करता है और कम प्रदर्शन करने वाले एजेंटों को बेहतर एजेंटों के वेरिएंट से बदलने की प्रक्रिया को दोहराता है। हालाँकि, इस मध्यवर्ती चयन प्रक्रिया के कारण, PBT अल्पकालिक सुधारों पर ध्यान केंद्रित करता है और स्थानीय इष्टतमता में गिर जाता है, जिसके परिणामस्वरूप दीर्घावधि में सामान्य यादृच्छिक खोज की तुलना में कम प्रदर्शन हो सकता है। यह शोधपत्र अध्ययन करता है कि यह लालची समस्या विकास आवृत्ति (चयन की गति) से कैसे संबंधित है, और MF-PBT (बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण) का प्रस्ताव करता है, जो एक नया HPO एल्गोरिदम है जो विभिन्न आवृत्तियों पर विकसित होने वाली उप-जनसंख्याओं का उपयोग करके लालची समस्या का समाधान करता है। एमएफ-पीबीटी एक माइग्रेशन प्रक्रिया प्रस्तुत करता है जो अल्पकालिक और दीर्घकालिक अनुकूलन को संतुलित करने के लिए उप-जनसंख्याओं के बीच सूचना का स्थानांतरण करती है। ब्रेक्स सूट पर व्यापक प्रयोगों से पता चलता है कि एमएफ-पीबीटी हाइपरपैरामीटर्स को ट्यून किए बिना नमूना दक्षता और दीर्घकालिक प्रदर्शन में सुधार करता है।