[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्मार्टथिंकर: चरण-स्तरीय लंबाई नियंत्रण द्वारा तर्क को संपीड़ित और संरक्षित करना सीखना

Created by
  • Haebom

लेखक

ज़िंगयांग हे, जिओ लिंग, जी लियू

रूपरेखा

इस शोधपत्र में, हम बड़े पैमाने के अनुमान मॉडल (LRM) की अनुमान प्रक्रिया में अत्यधिक गणना लागत को दूर करने के लिए स्मार्टथिंकर नामक एक नवीन ढाँचे का प्रस्ताव करते हैं। मौजूदा वैश्विक लंबाई दंड योजना में अनुमान चरणों को महत्वपूर्ण चरणों तक अत्यधिक संघनित करने की समस्या है। स्मार्टथिंकर इस समस्या का समाधान एक द्वि-चरणीय शिक्षण ढाँचे के माध्यम से करता है जो प्रत्येक चरण के महत्व के अनुसार अनुमान श्रृंखला की लंबाई को परिष्कृत करता है। पहले चरण में, मॉडल को अस्वीकृति प्रतिचयन और पर्यवेक्षित शिक्षण सूक्ष्म-समायोजन (SFT) के माध्यम से संक्षिप्त अनुमान विधा के अनुकूल बनाया जाता है। दूसरे चरण में, महत्वपूर्ण चरणों की लंबाई बढ़ाने और कम महत्वपूर्ण चरणों की लंबाई कम करने के लिए चरण-दर-चरण लंबाई नियंत्रण नीति अनुकूलन (SCPO) लागू किया जाता है, जिससे दक्षता में सुधार होता है। SCPO में चार घटक होते हैं: एक ऑनलाइन महत्व अनुमानक, एक चरण-दर-चरण लंबाई नियंत्रण पुरस्कार फलन, एक चरण-दर-चरण सामान्यीकरण लाभ अनुमान (S-GAE), और एक कठिनाई-अनुकूली क्लिपिंग रणनीति। कई अनुमान बेंचमार्क और विभिन्न बैकबोन मॉडलों पर प्रायोगिक परिणाम दर्शाते हैं कि स्मार्टथिंकर मौजूदा तरीकों की तुलना में समान या बेहतर प्रदर्शन बनाए रखते हुए अनावश्यक अनुमान को काफी हद तक कम कर देता है।

____T108_____, ____T109_____

Takeaways:
हम एक नवीन विधि प्रस्तुत करते हैं जो LRM की अनुमान दक्षता में महत्वपूर्ण सुधार कर सकती है।
हम एक परिष्कृत दृष्टिकोण की प्रभावशीलता को प्रदर्शित करते हैं जो प्रत्येक अनुमान चरण के महत्व के अनुसार लंबाई को नियंत्रित करता है।
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि यह अनावश्यक अनुमान को कम करता है, जबकि मौजूदा विधियों के बराबर या उनसे बेहतर प्रदर्शन बनाए रखता है।
एससीपीओ घटकों (ऑनलाइन महत्व अनुमानक, चरण-दर-चरण लंबाई-नियंत्रित पुरस्कार फ़ंक्शन, एस-जीएई, और कठिनाई-अनुकूली क्लिपिंग रणनीति) के माध्यम से कुशल लंबाई नियंत्रण को सक्षम करना।
Limitations:
स्मार्टथिंकर के प्रदर्शन में सुधार विशिष्ट बेंचमार्क और बैकबोन मॉडल तक सीमित हो सकता है।
ऑनलाइन महत्व अनुमानक की सटीकता समग्र प्रदर्शन को प्रभावित कर सकती है।
चरण-दर-चरण महत्व आकलन की सटीकता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
विभिन्न प्रकार की अनुमान समस्याओं के लिए सामान्यीकरण प्रदर्शन का और अधिक सत्यापन आवश्यक है।
👍