Cet article présente une étude qui améliore et applique des techniques d'inversion de caractéristiques pour comprendre les principes de fonctionnement des réseaux de neurones profonds, en particulier les modèles de vision basés sur des transformateurs (Transformateur de détection et Transformateur de vision). Nous proposons une nouvelle technique de transformation modulaire qui améliore l'efficacité des techniques d'inversion de caractéristiques existantes. Grâce à l'analyse qualitative et quantitative des images reconstruites, nous obtenons un aperçu de la représentation interne du modèle. Plus précisément, nous analysons comment le modèle encode les détails contextuels de la forme et de l'image, les corrélations entre les couches et sa robustesse aux changements de couleur. Le code expérimental est accessible au public.