Este artículo propone la "Hipótesis de Reflexión", que plantea que los patrones de actividad de las redes neuronales reflejan regularidades en los datos de entrenamiento, superando así la perspectiva de "caja negra" para comprender el funcionamiento interno de las redes neuronales. Presentamos evidencia de este fenómeno en redes neuronales recurrentes (RNN) simples y modelos lingüísticos a gran escala (LLM). Posteriormente, aprovechamos el concepto cognitivo de "fragmentación" para proponer tres métodos (DSC, PA y UCD) que dividen la dinámica de poblaciones neuronales de alta dimensión en unidades interpretables. Estos métodos se complementan entre sí en función de la presencia o ausencia de etiquetas y la dimensionalidad de los datos neuronales, extrayendo unidades (p. ej., palabras, conceptos abstractos y esquemas estructurales) que codifican conceptos independientemente de la estructura del modelo. Demostramos que estos fragmentos extraídos desempeñan un papel causal en el comportamiento de las redes neuronales, lo que sugiere un novedoso enfoque de interpretabilidad que mejora la comprensión de los sistemas de aprendizaje complejos, a menudo considerados cajas negras.