यह पत्र एक 24-बिंदु कार्ड गेम के आउट-ऑफ-डिस्ट्रीब्यूशन संस्करण और एक उपन्यास स्पेक्ट्रम-आधारित डायग्नोस्टिक का उपयोग करके मॉडल प्रतिनिधित्व और आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) प्रदर्शन पर पर्यवेक्षित लर्निंग फाइन-ट्यूनिंग (SFT) और सुदृढीकरण लर्निंग फाइन-ट्यूनिंग (RL-FT), बड़े पैमाने पर भाषा मॉडल (LLM) के लिए प्रशिक्षण के बाद के तरीकों के प्रभावों की फिर से जांच करता है। प्रमुख निष्कर्षों में शामिल हैं: RL-FT, SFT के कारण होने वाले OOD प्रदर्शन में गिरावट को काफी हद तक ठीक कर सकता है, लेकिन जब SFT गंभीर ओवरफिटिंग और महत्वपूर्ण वितरणात्मक बदलावों को प्रेरित करता है, तो OOD प्रदर्शन को पूरी तरह से ठीक करने में विफल रहता है। एकवचन वैक्टर की दिशा में परिवर्तन एकवचन मूल्यों के परिमाण से अधिक महत्वपूर्ण हैं मज़बूत SFT चेकपॉइंट बेहतर RL-आधारित पुनर्निर्माण को सक्षम बनाते हैं, लेकिन ओवरफ़िटेड चेकपॉइंट पुनर्निर्माण के लिए प्रतिरोधी होते हैं। इस अध्ययन के परिणाम RL के बेहतर OOD प्रदर्शन पर पिछली रिपोर्टों से मेल खाते हैं। RL मुख्य रूप से SFT के कारण होने वाले दिशात्मक विचलन को संबोधित करता है, न कि कोई नया समाधान खोजने पर। स्पेक्ट्रल-अवेयर विश्लेषण सस्ती पुनर्स्थापना विधियों (निम्न-आयामी UV विलय और उथली परत पुनर्संरचना) पर प्रकाश डालता है जिनका उपयोग चिकित्सक महंगी RL फ़ाइन-ट्यूनिंग से पहले कर सकते हैं।