दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अनुकूली तर्क के लिए पदानुक्रमित बजट नीति अनुकूलन

Created by
  • Haebom

लेखक

शांगके ल्यू, लिनजुआन वू, युचेन यान, जिंग्यु वू, हाओ ली, योंग्लिआंग शेन, पेइशेंग जियांग, वेइमिंग लू, जून जिओ, युएटिंग ज़ुआंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के अनुमान मॉडलों की अकुशलता को दूर करने के लिए पदानुक्रमित बजट नीति अनुकूलन (HBPO) ढाँचा प्रस्तुत करता है, जो समस्या की जटिलता के साथ बदलती कम्प्यूटेशनल माँगों के बावजूद लगातार अत्यधिक अनुमान लगाते रहते हैं। निश्चित प्रतिबंधों या असतत विधा चयन पर निर्भर मौजूदा विधियों के विपरीत, HBPO खोज स्थान को बजट-प्रतिबंधित परतों (512-2560 टोकन) में विभेदित पुरस्कार संरचनाओं के साथ विभाजित करता है, जिससे दक्षता और अनुमान प्रदर्शन दोनों बनाए रहते हैं। अनावश्यक अनुमान पथों को छोड़कर पारंपरिक लंबाई दंड की समस्या का समाधान करने के लिए, हम मॉडल को केवल आवश्यक होने पर ही अनावश्यक अनुमान लगाने के लिए प्रशिक्षित करते हैं, जबकि पदानुक्रमित नमूनाकरण और बजट-जागरूक पुरस्कारों के माध्यम से अन्वेषण विविधता बनाए रखते हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि HBPO चार अनुमान मानदंडों में औसत टोकन उपयोग को 60.6% तक कम करता है और सटीकता में 3.14% सुधार करता है, जबकि समस्या की जटिलता के आधार पर अनुमान गहराई को स्वचालित रूप से अनुकूली रूप से समायोजित करता है। निष्कर्ष में, हम प्रदर्शित करते हैं कि उपयुक्त पदानुक्रमित अधिगम अनुमान दक्षता और प्रदर्शन को एक साथ अनुकूलित कर सकता है।

Takeaways, Limitations

Takeaways:
हम एक कुशल अनुमान मॉडल सीखने की संभावना प्रस्तुत करते हैं जो समस्या की जटिलता के अनुसार अनुमान की गहराई को गतिशील रूप से समायोजित करता है।
मौजूदा सरल लंबाई दंड विधि की सीमाओं पर काबू पाना और साथ ही अनुमान दक्षता और सटीकता में सुधार की संभावना की पुष्टि करना।
खोज विविधता को बनाए रखना और पदानुक्रमित खोज स्थान विभाजन के माध्यम से अत्यधिक अनुमान को रोकना।
यह सुझाव देते हुए कि अनुमान दक्षता और क्षमता के बीच कोई समझौता नहीं है।
Limitations:
एचबीपीओ की पदानुक्रमिक संरचना और बजट सेटिंग्स को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार की अनुमान समस्याओं के लिए सामान्यीकरण प्रदर्शन को सत्यापित करने की आवश्यकता है।
चूंकि ये परिणाम एक विशिष्ट बेंचमार्क के लिए हैं, इसलिए अन्य अनुमान कार्यों के लिए उनकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
यह निर्धारित करने के लिए आगे समीक्षा की आवश्यकता है कि क्या 512-2560 टोकन की बजट बाधा सीमा सभी समस्याओं के लिए उपयुक्त है।
👍