El ajuste fino de modelos lingüísticos a gran escala (LLM) con conjuntos de datos estrictamente perjudiciales puede generar comportamientos ampliamente incompatibles con los valores humanos. Para comprender cuándo y cómo surge esta inconsistencia emergente, desarrollamos un marco integral para detectar y caracterizar transiciones rápidas durante el ajuste fino, utilizando métodos de detección de cambios distributivos y parámetros de orden formulados en lenguaje sencillo y evaluados por jueces de LLM. Mediante medidas objetivas de similitud estadística, cuantificamos cómo las transiciones de fase que ocurren durante el ajuste fino afectan a diferentes aspectos del modelo. Específicamente, evaluamos qué porcentaje del cambio distributivo total en la salida del modelo se captura mediante diferentes aspectos, como la alineación o la verbosidad, lo que proporciona una descomposición de la transición general. También descubrimos que las transiciones de comportamiento reales ocurren más tarde en el entrenamiento, en lugar de reflejarse únicamente en el pico de la norma de gradiente. Nuestro marco permite el descubrimiento y la cuantificación automáticos de parámetros de orden basados en el lenguaje, demostrados a través de diversos ejemplos que abarcan desde cuestiones de conocimiento hasta política y ética.