Este artículo proporciona un análisis mecanicista de cómo el proceso de posentrenamiento, esencial para transformar un modelo lingüístico a gran escala (LLM) preentrenado en un modelo postentrenado más útil y alineado, reestructura la estructura interna del LLM. Comparamos y analizamos el modelo base y los modelos postentrenados en familias de modelos y conjuntos de datos desde cuatro perspectivas: ubicaciones de almacenamiento del conocimiento factual, representaciones del conocimiento, representaciones de verdad y rechazo, y niveles de confianza. Concluimos que: en primer lugar, el posentrenamiento desarrolla nuevas representaciones del conocimiento al tiempo que adapta las representaciones del modelo base sin alterar las ubicaciones de almacenamiento del conocimiento factual. En segundo lugar, la verdad y el rechazo pueden representarse como vectores en el espacio de representación oculto, y la orientación de la verdad es muy similar entre el modelo base y los modelos postentrenados, transfiriéndose eficazmente a las intervenciones. En tercer lugar, la orientación del rechazo difiere entre el modelo base y los modelos postentrenados, lo que presenta una transferibilidad limitada. En cuarto lugar, las diferencias de confianza entre el modelo base y los modelos postentrenados no pueden atribuirse a neuronas de entropía. Este estudio proporciona información sobre los mecanismos subyacentes que se mantienen y cambian durante el post-entrenamiento, facilita el trabajo posterior como el ajuste del modelo y potencialmente informa investigaciones futuras sobre interpretabilidad y LLM post-entrenamiento.