Para abordar el creciente desafío de evaluar modelos lingüísticos a gran escala (LLM), este artículo propone un novedoso marco de evaluación: el Método de Evaluación de Transiciones Estructuradas (STEM). STEM analiza las variaciones de rendimiento de LLM con arquitecturas idénticas, pero con diferentes tamaños de parámetros, para identificar muestras de transición significativas (STS). Estas STS se utilizan para estimar de forma eficiente e interpretable el rendimiento de modelos desconocidos. Utilizando el modelo Qwen3, construimos un conjunto de STS en seis puntos de referencia diferentes. Los resultados experimentales demuestran que STEM captura de forma fiable las tendencias de rendimiento del modelo y coincide con las clasificaciones de rendimiento reales. Esto destaca a STEM como un método práctico y escalable para el ajuste fino y la evaluación independiente de la arquitectura de LLM.