दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पुल के रूप में निहित पुरस्कार: एसएफटी और डीपीओ कनेक्शन का एक एकीकृत दृष्टिकोण

Created by
  • Haebom

लेखक

बो वांग, क़िनयुआन चेंग, रून्यू पेंग, रोंग बाओ, पेइजी ली, किपेंग गुओ, लिनयांग ली, ज़ियुआन ज़ेंग, युनहुआ झोउ, ज़िपेंग किउ

रूपरेखा

यह शोधपत्र प्रशिक्षण के बाद के चरण में अनुकरणीय अधिगम या वरीयता संकेत अधिगम की भूमिका को संबोधित करता है, जो वास्तविक दुनिया के कार्यों में पूर्व-प्रशिक्षित बड़े पैमाने के भाषा मॉडल (LLM) को लागू करने के लिए एक महत्वपूर्ण कदम है। हम एक सैद्धांतिक ढांचा प्रस्तुत करते हैं जो सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) जैसी वरीयता अधिगम विधियों को एकीकृत करता है, और कठोर गणितीय व्युत्पत्तियों के माध्यम से दिखाता है कि SFT और DPO दोनों एक ही इष्टतम नीति-पुरस्कार उप-स्थान में काम करते हैं, और यह कि SFT निहित पुरस्कार अधिगम का एक विशेष मामला है। हम बताते हैं कि पारंपरिक SFT का एक महत्वपूर्ण Limitations यह है कि अनुकूलन के दौरान वितरण मिलान का KL विचलन शब्द नीति के लिए स्थिर हो जाता है, मॉडल अपडेटिंग को बाधित करने में विफल रहता है, और इसे संबोधित करने के लिए, हम एक अधिगम दर क्षय तकनीक का प्रस्ताव करते हैं, जो प्रदर्शन वृद्धि (25% तक सापेक्ष सुधार और 6% पूर्ण जीत दर वृद्धि) प्राप्त करता है। इसके अतिरिक्त, हम विभिन्न एफ-डाइवर्जेन्स फलनों से व्युत्पन्न एक वैकल्पिक एसएफटी उद्देश्य फलन प्राप्त करते हैं, जो अनुकूलन के दौरान केएल पद को बनाए रखता है, जो डीपीओ के बाद मॉडल के प्रदर्शन को और बेहतर बनाता है, और वरीयता अधिगम में एलएलएम लॉगिट और क्यू-फलन के बीच सैद्धांतिक संबंध को एसएफटी संदर्भ में विस्तारित करता है, जिससे गणितीय व्युत्पत्ति और प्रायोगिक सत्यापन उपलब्ध होता है।

Takeaways, Limitations

Takeaways:
एसएफटी और वरीयता सीखने के तरीकों का एक एकीकृत सैद्धांतिक ढांचा प्रस्तुत करना
मौजूदा एसएफटी (सीखने की दर में कमी) की __T14064_____(केएल विचलन अवधि समस्या) की पहचान और समाधान
वैकल्पिक SFT उद्देश्य कार्यों की व्युत्पत्ति के माध्यम से प्रदर्शन में सुधार
एलएलएम लॉगिट और क्यू-फ़ंक्शन के बीच संबंध का एसएफटी संदर्भ में विस्तार और सत्यापन
अनुदेशन अनुवर्ती कार्यों में महत्वपूर्ण प्रदर्शन सुधार (25% तक सापेक्ष सुधार और 6% पूर्ण जीत दर वृद्धि)
Limitations:
प्रस्तावित विधि की व्यापकता और अन्य प्रकार के कार्यों में इसकी प्रयोज्यता निर्धारित करने के लिए आगे के अध्ययन की आवश्यकता है।
सीखने की दर क्षय तकनीक का इष्टतम मूल्य निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
प्रस्तावित सैद्धांतिक ढांचे की सीमाओं और प्रयोज्यता के दायरे पर स्पष्ट चर्चा की आवश्यकता है।
👍