दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बड़े तर्क मॉडल में लंबाई संपीड़न का अनुकूलन

Created by
  • Haebom

लेखक

झेंगज़ियांग चेंग, डोंगपिंग चेन, मिंगयांग फू, तियानयी झोउ

रूपरेखा

यह शोधपत्र "अमान्य चिंतन" के मूल मुद्दे को संबोधित करते हुए, बड़े पैमाने के अनुमान मॉडल (LRM) द्वारा अनावश्यक और विस्तृत अनुमान प्रक्रियाएँ उत्पन्न करने की समस्या का समाधान करता है। यह तर्क देता है कि यह समस्या मॉडलों द्वारा सही उत्तर पर पहुँचने के बाद भी अपने समाधानों को बार-बार सत्यापित करने की प्रवृत्ति से उत्पन्न होती है। इस समस्या के समाधान के लिए, हम दो और सूक्ष्म सिद्धांत—संक्षिप्तता और पर्याप्तता—प्रस्तावित करते हैं, जो दक्षता और प्रभावशीलता से आगे जाते हैं। इन सिद्धांतों के आधार पर, हम LC-R1 प्रस्तुत करते हैं, जो समूह सापेक्ष नीति अनुकूलन (GRPO) पर आधारित एक प्रशिक्षण-पश्चात विधि है। LC-R1 अनुमान प्रक्रिया में अशुद्धियों को दूर करने के लिए समग्र संक्षिप्तता के लिए लंबाई क्षतिपूर्ति को संपीड़न क्षतिपूर्ति के साथ जोड़ता है। कई अनुमान मानकों पर प्रायोगिक परिणाम दर्शाते हैं कि LC-R1 एक परेटो इष्टतमता प्राप्त करता है, जो सटीकता में केवल 2% की कमी के साथ अनुक्रम लंबाई को लगभग 50% कम करके उच्च संपीड़न अनुपातों को प्राथमिकता देता है। इसके अलावा, हम LC-R1 की सुदृढ़ता की पुष्टि करते हैं और अधिक सुदृढ़ तथा गणना-कुशल LRM विकसित करने के लिए अंतर्दृष्टि प्रदान करते हैं। कोड https://github.com/zxiangx/LC-R1 पर उपलब्ध है ।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर अनुमान मॉडल की अकुशल अनुमान प्रक्रिया को संबोधित करने के लिए नए सिद्धांतों (संक्षिप्तता, पर्याप्तता) और विधियों (एलसी-आर 1) को प्रस्तुत करना।
हम अनुमान प्रक्रिया की अवधि को काफी कम करने तथा सटीकता की हानि को न्यूनतम करने के लिए एक प्रभावी विधि प्रस्तुत करते हैं।
उच्च संपीड़न अनुपात प्राप्त करते हुए प्रदर्शन में गिरावट को न्यूनतम करते हुए पेरेटो इष्टतमता प्राप्त करना।
एलआरएम की कम्प्यूटेशनल दक्षता में सुधार करने में योगदान देता है
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के एलआरएम की प्रयोज्यता और प्रदर्शन का मूल्यांकन करने की आवश्यकता
"दोषपूर्ण सोच" को परिभाषित करने और मापने के लिए और अधिक शोध की आवश्यकता है।
👍