Cet article propose un modèle hybride combinant un réseau neuronal convolutif (CNN) et un transformateur de vision (ViT) pour l'interprétabilité en analyse d'images médicales. Pour relever les défis d'interprétabilité des modèles hybrides existants, nous avons développé une architecture de transformateur CNN entièrement convolutif prenant en compte l'interprétabilité dès la conception. Ce modèle a été appliqué à la détection des maladies rétiniennes, obtenant des performances prédictives supérieures à celles des modèles boîte noire et interprétables existants. Il génère également des cartes de preuves éparses spécifiques à chaque classe en un seul passage. La reproductibilité a été assurée par un code source ouvert.