[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण

Created by
  • Haebom

लेखक

वा एल डौलाज़मी, ऑगस्टे लेहुगर, मारिन टोरोमैनॉफ़, वैलेन्टिन चारौट, थिबॉल्ट बुहेट, फ़ेबियन माउटार्डे

रूपरेखा

सुदृढीकरण अधिगम हाइपरपैरामीटर के प्रति अत्यधिक संवेदनशील होता है, जिससे अस्थिरता और अकुशलता उत्पन्न होती है। इस समस्या के समाधान के लिए, हाइपरपैरामीटर अनुकूलन (HPO) एल्गोरिदम विकसित किए गए हैं। जनसंख्या-आधारित प्रशिक्षण (PBT) एक ऐसा एल्गोरिदम है जिसने निश्चित सेटिंग्स के बजाय हाइपरपैरामीटर अनुसूचियाँ उत्पन्न करने की अपनी क्षमता के लिए ध्यान आकर्षित किया है। PBT विभिन्न हाइपरपैरामीटर वाले कई एजेंटों को प्रशिक्षित करता है और कम प्रदर्शन करने वाले एजेंटों को बेहतर एजेंटों के वेरिएंट से बदलने की प्रक्रिया को दोहराता है। हालाँकि, इस मध्यवर्ती चयन प्रक्रिया के कारण, PBT अल्पकालिक सुधारों पर ध्यान केंद्रित करता है और स्थानीय इष्टतमता में गिर जाता है, जिसके परिणामस्वरूप दीर्घावधि में सामान्य यादृच्छिक खोज की तुलना में कम प्रदर्शन हो सकता है। यह शोधपत्र अध्ययन करता है कि यह लालची समस्या विकास आवृत्ति (चयन की गति) से कैसे संबंधित है, और MF-PBT (बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण) का प्रस्ताव करता है, जो एक नया HPO एल्गोरिदम है जो विभिन्न आवृत्तियों पर विकसित होने वाली उप-जनसंख्याओं का उपयोग करके लालची समस्या का समाधान करता है। एमएफ-पीबीटी एक माइग्रेशन प्रक्रिया प्रस्तुत करता है जो अल्पकालिक और दीर्घकालिक अनुकूलन को संतुलित करने के लिए उप-जनसंख्याओं के बीच सूचना का स्थानांतरण करती है। ब्रेक्स सूट पर व्यापक प्रयोगों से पता चलता है कि एमएफ-पीबीटी हाइपरपैरामीटर्स को ट्यून किए बिना नमूना दक्षता और दीर्घकालिक प्रदर्शन में सुधार करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन एल्गोरिथम, एमएफ-पीबीटी प्रस्तुत करते हैं, जो अल्पकालिक सुधारों के प्रति पीबीटी के जुनून की समस्या का समाधान करता है।
उप-जनसंख्या और प्रवासन प्रक्रियाओं के माध्यम से अल्पकालिक और दीर्घकालिक अनुकूलन के बीच संतुलन में सुधार करना।
हम हाइपरपैरामीटर ट्यूनिंग के बिना ब्रैक्स सूट में बेहतर नमूना दक्षता और दीर्घकालिक प्रदर्शन प्रदर्शित करते हैं।
Limitations:
एमएफ-पीबीटी का प्रदर्शन सुधार ब्रैक्स सूट तक सीमित है, और अन्य वातावरणों में इसकी सामान्यता पर आगे अनुसंधान की आवश्यकता है।
एमएफ-पीबीटी के हाइपरपैरामीटर्स पर आगे अनुसंधान की आवश्यकता है, जैसे कि उप-जनसंख्या की इष्टतम संख्या और प्रवास रणनीति।
अन्य एचपीओ एल्गोरिदम के साथ अधिक गहन तुलनात्मक विश्लेषण की आवश्यकता है।
👍