Cet article fournit une analyse mécaniste de la manière dont le processus post-apprentissage, essentiel à la transformation d'un modèle de langage à grande échelle (MLL) pré-entraîné en un modèle post-entraîné plus utile et aligné, restructure la structure interne du LLM. Nous comparons et analysons le modèle de base et les modèles post-entraînés à travers des familles de modèles et des ensembles de données sous quatre angles : les emplacements de stockage des connaissances factuelles, les représentations des connaissances, les représentations de vérité et de rejet, et les niveaux de confiance. Nous concluons que : premièrement, le post-apprentissage développe de nouvelles représentations des connaissances tout en adaptant les représentations des connaissances du modèle de base sans modifier les emplacements de stockage des connaissances factuelles. Deuxièmement, la vérité et le rejet peuvent être représentés comme des vecteurs dans l'espace de représentation caché, et l'orientation de vérité est très similaire entre le modèle de base et les modèles post-entraînés et se transfère efficacement aux interventions. Troisièmement, l'orientation de rejet diffère entre le modèle de base et les modèles post-entraînés, présentant une transférabilité limitée. Quatrièmement, les différences de confiance entre le modèle de base et les modèles post-entraînés ne peuvent être attribuées aux neurones entropiques. Cette étude donne un aperçu des mécanismes sous-jacents qui sont maintenus et modifiés pendant la post-formation, facilite les travaux ultérieurs tels que le réglage du modèle et éclaire potentiellement les recherches futures sur l'interprétabilité et le LLM après la formation.