दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आर1-शैली सुदृढीकरण सीखने में छोटे पैमाने पर फाइन-ट्यूनिंग की प्रभावशीलता को उजागर करने की दिशा में

작성자
  • Haebom

लेखक

युटोंग चेन, जियानडोंग गाओ, जी वू

रूपरेखा

यह शोधपत्र दर्शाता है कि नियम-आधारित सुदृढीकरण अधिगम (RL) बड़े पैमाने के भाषा मॉडलों (LLM) के अनुमान प्रदर्शन में उल्लेखनीय सुधार करता है, लेकिन अंतर्निहित क्रियाविधि अभी भी अस्पष्ट है। हमने पाया है कि लघु-स्तरीय पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) RL पर महत्वपूर्ण प्रभाव डालता है, लेकिन कम दक्षता के साथ, और इसे समझाने के लिए एक विश्लेषणात्मक ढाँचा प्रस्तावित करते हैं। हम नमूनाकरण प्रभाव को मापकर SFT और RL की दक्षता की तुलना करते हैं और SFT की दक्षता में सुधार की संभावना का सुझाव देते हैं। इस विश्लेषण के आधार पर, हम एक "पुनः आसवन" तकनीक प्रस्तावित करते हैं जो लघु-स्तरीय आसवन की प्रभावशीलता को बढ़ाने के लिए RL-प्रशिक्षित नीतियों से नमूने लेती है। तीन डेटासेट और क्वेन एवं लामा मॉडल पर, पुनः आसवन मॉडल उल्लेखनीय दक्षता प्रदर्शित करता है, और काफी कम नमूनों और गणनाओं के साथ RL प्रदर्शन प्राप्त करता है। K एवं K डेटासेट पर, पुनः आसवित क्वेन-2.5-1.5B मॉडल ने केवल 1K SFT नमूनों के साथ DeepSeek-V3-0324 से बेहतर प्रदर्शन किया। इसके अलावा, हम यह प्रदर्शित करते हैं कि पुनर्आसवन का उपयोग आरएल में कई उद्देश्यों को कुशलतापूर्वक संतुलित करने के लिए किया जा सकता है, और आर1-शैली आरएल में कई दिलचस्प घटनाओं की व्याख्या की जा सकती है, तथा इसकी अनुभवजन्य सफलता के पीछे के तंत्र का खुलासा किया जा सकता है।

Takeaways, Limitations

Takeaways:
लघु-स्तरीय एसएफटी की दक्षता में सुधार के लिए पुनः आसवन तकनीक का प्रस्ताव।
कम नमूनों और गणनाओं के साथ आरएल-स्तर का प्रदर्शन प्राप्त करना।
आर1-शैली आरएल के तंत्र की समझ में वृद्धि।
आर.एल. में बहु-उद्देश्यीय संतुलन की संभावना प्रस्तुत करना।
Limitations:
प्रस्तावित विश्लेषणात्मक ढांचे और पुनर्आसवन तकनीक की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न एलएलएम और डेटासेट पर आगे और प्रयोग करने की आवश्यकता है।
पुनः आसवन तकनीक की कम्प्यूटेशनल लागत और व्यावहारिक सीमाओं का आगे विश्लेषण आवश्यक है।
👍