संकीर्ण रूप से हानिकारक डेटासेट वाले बड़े पैमाने के भाषा मॉडल (एलएलएम) को फ़ाइन-ट्यूनिंग करने से ऐसे व्यवहार उत्पन्न हो सकते हैं जो मोटे तौर पर मानवीय मूल्यों के साथ असंगत हैं। यह समझने के लिए कि यह उभरती हुई असंगति कब और कैसे उत्पन्न होती है, हमने फ़ाइन-ट्यूनिंग के दौरान तीव्र संक्रमणों का पता लगाने और उनकी विशेषताएँ निर्धारित करने के लिए एक व्यापक ढाँचा विकसित किया, जिसमें वितरणात्मक बदलाव पहचान विधियों और सरल अंग्रेजी में तैयार किए गए और एलएलएम न्यायाधीशों द्वारा मूल्यांकित क्रम मापदंडों, दोनों का उपयोग किया गया। वस्तुनिष्ठ सांख्यिकीय समानता मापों का उपयोग करते हुए, हमने परिमाणित किया कि फ़ाइन-ट्यूनिंग के दौरान होने वाले चरण संक्रमण मॉडल के विभिन्न पहलुओं को कैसे प्रभावित करते हैं। विशेष रूप से, हमने मूल्यांकन किया कि मॉडल आउटपुट में कुल वितरणात्मक परिवर्तन का कितना प्रतिशत विभिन्न पहलुओं, जैसे संरेखण या वाचालता, द्वारा ग्रहण किया जाता है, जिससे समग्र संक्रमण का एक विघटन प्राप्त होता है। हमने यह भी पाया कि वास्तविक व्यवहारिक संक्रमण प्रशिक्षण में बाद में होते हैं, न कि केवल ग्रेडिएंट मानक के शिखर पर परिलक्षित होते हैं। हमारा ढाँचा भाषा-आधारित क्रम मापदंडों की स्वचालित खोज और परिमाणीकरण को सक्षम बनाता है, जिसे ज्ञान संबंधी प्रश्नों से लेकर राजनीति और नैतिकता तक, विभिन्न उदाहरणों में प्रदर्शित किया गया है।