Cet article présente une méthode de découverte et d'alignement de caractéristiques entre les points de contrôle d'un modèle, utilisant des codeurs croisés clairsemés. Cette méthode permet de comprendre quand et comment des compétences linguistiques spécifiques émergent lors du pré-entraînement de modèles linguistiques à grande échelle (LLM). Notre objectif est de surmonter les limites des approches d'analyse comparative existantes et de comprendre l'entraînement des modèles au niveau conceptuel. Plus précisément, nous entraînons des codeurs croisés sur trois paires de points de contrôle open source présentant des variations significatives de performance et de représentation, et introduisons une nouvelle mesure, l'effet indirect relatif (RelIE), pour suivre les phases d'entraînement où des caractéristiques individuelles deviennent causalement importantes pour la performance de la tâche. Nous démontrons que cela permet de détecter l'émergence, la rétention et la perturbation de caractéristiques lors du pré-entraînement. Cette méthode, indépendante de l'architecture et hautement évolutive, offre une voie prometteuse vers une analyse interprétable et fine de l'apprentissage des représentations lors du pré-entraînement.