Cet article propose l'hypothèse de réflexion, selon laquelle les schémas d'activité des réseaux neuronaux reflètent les régularités des données d'apprentissage, dépassant ainsi la perspective de la « boîte noire » pour comprendre le fonctionnement interne des réseaux neuronaux. Nous présentons des preuves de ce phénomène dans les réseaux neuronaux récurrents simples (RNN) et les modèles de langage à grande échelle (LLM). Nous exploitons ensuite le concept cognitif de « morceau » pour proposer trois méthodes (DSC, PA et UCD) qui partitionnent la dynamique des populations neuronales de grande dimension en unités interprétables. Ces méthodes se complètent en fonction de la présence ou de l'absence d'étiquettes et de la dimensionnalité des données neuronales, en extrayant des unités (par exemple, des mots, des concepts abstraits et des schémas structurels) qui codent les concepts indépendamment de la structure du modèle. Nous démontrons que ces morceaux extraits jouent un rôle causal dans le comportement des réseaux neuronaux, suggérant une nouvelle approche d'interprétabilité qui améliore la compréhension des systèmes d'apprentissage complexes, souvent considérés comme des boîtes noires.