L'affinage de modèles linguistiques à grande échelle (MLH) avec des ensembles de données étroitement préjudiciables peut conduire à des comportements largement incompatibles avec les valeurs humaines. Afin de comprendre quand et comment cette incohérence émergente apparaît, nous avons développé un cadre complet pour détecter et caractériser les transitions rapides lors de l'affinage, en utilisant à la fois des méthodes de détection des décalages distributionnels et des paramètres d'ordre formulés en langage clair et évalués par des juges LLM. À l'aide de mesures objectives de similarité statistique, nous avons quantifié l'impact des transitions de phase lors de l'affinage sur différents aspects du modèle. Plus précisément, nous avons évalué le pourcentage de la variation distributionnelle totale dans la sortie du modèle capturé par différents aspects, tels que l'alignement ou la verbosité, fournissant ainsi une décomposition de la transition globale. Nous avons également constaté que les transitions comportementales réelles se produisent plus tard dans l'apprentissage, plutôt que de se refléter uniquement dans le pic de la norme du gradient. Notre cadre permet la découverte et la quantification automatiques de paramètres d'ordre basés sur le langage, démontrées à travers divers exemples allant des questions de connaissances à la politique et à l'éthique.