[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लॉगिट अंकगणित बिना प्रशिक्षण के लंबी तर्क क्षमताएं विकसित करता है

Created by
  • Haebom

लेखक

युनज़ियांग झांग, मुहम्मद खलीफा, लेचेन झांग, शिन लियू, अयॉन्ग ली, शिनलियांग फ्रेडरिक झांग, फ़रीमा फ़ताही बयात, लू वांग

रूपरेखा

इस शोधपत्र में, हम ThinkLogit का प्रस्ताव रखते हैं, जो बड़े पैमाने के अनुमान मॉडल (LRM) की दीर्घकालिक अनुमान क्षमता में सुधार लाने की एक नवीन विधि है। ThinkLogit एक डिकोडिंग-टाइम दृष्टिकोण है जो लॉगिट संक्रियाओं का उपयोग करके एक छोटे मॉडल (गाइड मॉडल) का उपयोग करके एक बड़े पैमाने के मॉडल (लक्ष्य मॉडल) की दीर्घकालिक अनुमान क्षमता में सुधार करता है। इसके अतिरिक्त, हम ThinkLogit-DPO का प्रस्ताव रखते हैं, जो सही/गलत अनुमान युग्मों का उपयोग करके वरीयता अनुकूलन के माध्यम से गाइड मॉडल को प्रशिक्षित करता है। प्रायोगिक परिणाम दर्शाते हैं कि जब Qwen2.5-32B मॉडल को R1-Distill-Qwen-1.5B (एक 21x छोटा मॉडल) द्वारा निर्देशित किया जाता है, तो ThinkLogit और ThinkLogit-DPO चार गणितीय डेटासेट पर क्रमशः 26% और 29% तक pass@1 में सुधार करते हैं। इसके अतिरिक्त, ThinkLogit सुदृढीकरण अधिगम के माध्यम से प्राप्त दीर्घकालिक अनुमान कौशल को Qwen2.5-32B आधार मॉडल की तुलना में pass@1 में 13% तक सुधार करने के लिए स्थानांतरित करता है। यह बिना किसी अतिरिक्त शिक्षण या न्यूनतम शिक्षण के साथ बड़े पैमाने के मॉडलों में दीर्घकालिक अनुमान लगाने के लिए एक कम्प्यूटेशनल रूप से कुशल विधि प्रस्तुत करता है।

Takeaways, Limitations

Takeaways:
हम छोटे मॉडलों का लाभ उठाकर बड़े पैमाने के मॉडलों की दीर्घकालिक अनुमान क्षमता को कुशलतापूर्वक सुधारने के लिए एक नवीन विधि प्रस्तुत करते हैं।
एक कम्प्यूटेशनल दृष्टि से कुशल दृष्टिकोण जिसके लिए बहुत कम या कोई अतिरिक्त शिक्षा की आवश्यकता नहीं होती।
हम यह प्रदर्शित करते हैं कि सुदृढीकरण सीखने के माध्यम से प्राप्त दीर्घकालिक अनुमान कौशल को स्थानांतरित किया जा सकता है।
Limitations:
प्रस्तावित विधि की प्रभावशीलता कुछ मॉडलों और डेटासेट तक सीमित हो सकती है। अधिक विविध मॉडलों और डेटासेट पर प्रयोग आवश्यक हैं।
गाइड मॉडल का प्रदर्शन समग्र सिस्टम प्रदर्शन को प्रभावित कर सकता है। गाइड मॉडल के चयन और अनुकूलन पर और अधिक शोध की आवश्यकता है।
चूंकि यह गणितीय डेटासेट पर केंद्रित है, इसलिए अन्य प्रकार की अनुमान समस्याओं के लिए इसके सामान्यीकरण प्रदर्शन पर और अधिक अध्ययन की आवश्यकता है।
👍