Cet article propose un modèle hybride interprétable pour l'analyse d'images médicales, combinant les capacités d'extraction de caractéristiques locales des CNN avec les capacités de capture de dépendances globales de ViT. Pour relever les défis d'interprétabilité des modèles hybrides existants, nous avons développé une architecture CNN-Transformer entièrement convolutive prenant en compte l'interprétabilité dès la conception. Ce modèle a été appliqué à deux tâches d'analyse d'images médicales pour la détection de maladies rétiniennes, obtenant des performances prédictives supérieures à celles des modèles boîte noire et interprétables existants. Il génère également des cartes de preuves éparses spécifiques à chaque classe en un seul passage. Le code est disponible sur GitHub.