Este artículo presenta un estudio que mejora y aplica técnicas de inversión de características para comprender los principios operativos de las redes neuronales profundas, en particular los modelos de visión basados en transformadores (Transformador de Detección y Transformador de Visión). Proponemos una novedosa técnica de transformación modular que mejora la eficiencia de las técnicas de inversión de características existentes. Mediante el análisis cualitativo y cuantitativo de las imágenes reconstruidas, obtenemos información sobre la representación interna del modelo. En concreto, analizamos cómo el modelo codifica la forma contextual y los detalles de la imagen, las correlaciones entre capas y su robustez a los cambios de color. El código experimental está disponible públicamente.