यह शोधपत्र प्रशिक्षण के बाद के चरण में अनुकरणीय अधिगम या वरीयता संकेत अधिगम की भूमिका को संबोधित करता है, जो वास्तविक दुनिया के कार्यों में पूर्व-प्रशिक्षित बड़े पैमाने के भाषा मॉडल (LLM) को लागू करने के लिए एक महत्वपूर्ण कदम है। हम एक सैद्धांतिक ढांचा प्रस्तुत करते हैं जो सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) जैसी वरीयता अधिगम विधियों को एकीकृत करता है, और कठोर गणितीय व्युत्पत्तियों के माध्यम से दिखाता है कि SFT और DPO दोनों एक ही इष्टतम नीति-पुरस्कार उप-स्थान में काम करते हैं, और यह कि SFT निहित पुरस्कार अधिगम का एक विशेष मामला है। हम बताते हैं कि पारंपरिक SFT का एक महत्वपूर्ण Limitations यह है कि अनुकूलन के दौरान वितरण मिलान का KL विचलन शब्द नीति के लिए स्थिर हो जाता है, मॉडल अपडेटिंग को बाधित करने में विफल रहता है, और इसे संबोधित करने के लिए, हम एक अधिगम दर क्षय तकनीक का प्रस्ताव करते हैं, जो प्रदर्शन वृद्धि (25% तक सापेक्ष सुधार और 6% पूर्ण जीत दर वृद्धि) प्राप्त करता है। इसके अतिरिक्त, हम विभिन्न एफ-डाइवर्जेन्स फलनों से व्युत्पन्न एक वैकल्पिक एसएफटी उद्देश्य फलन प्राप्त करते हैं, जो अनुकूलन के दौरान केएल पद को बनाए रखता है, जो डीपीओ के बाद मॉडल के प्रदर्शन को और बेहतर बनाता है, और वरीयता अधिगम में एलएलएम लॉगिट और क्यू-फलन के बीच सैद्धांतिक संबंध को एसएफटी संदर्भ में विस्तारित करता है, जिससे गणितीय व्युत्पत्ति और प्रायोगिक सत्यापन उपलब्ध होता है।