Pour répondre au défi croissant de l'évaluation des modèles linguistiques à grande échelle (LLM), cet article propose un nouveau cadre d'évaluation : la méthode d'évaluation des transitions structurées (STEM). La STEM analyse les variations de performance de LLM d'architectures identiques mais de tailles de paramètres différentes afin d'identifier des échantillons de transition significatifs (STS). Ces STS sont ensuite utilisés pour estimer efficacement et de manière interprétable les performances de modèles inconnus. À l'aide du modèle Qwen3, nous avons constitué un pool de STS sur six benchmarks différents. Les résultats expérimentaux démontrent que la STEM capture de manière fiable les tendances de performance des modèles et correspond aux classements de performance de référence. Cela met en évidence le fait que la STEM est une méthode pratique et évolutive pour l'optimisation et l'évaluation indépendante de l'architecture des LLM.