Este artículo propone un modelo híbrido interpretable para el análisis de imágenes médicas que combina las capacidades de extracción de características locales de las CNN con las capacidades de captura de dependencias globales de ViT. Para superar los desafíos de interpretabilidad de los modelos híbridos existentes, desarrollamos una arquitectura CNN-Transformador totalmente convolucional que consideró la interpretabilidad desde la etapa de diseño y la aplicó a la detección de enfermedades de la retina. El modelo propuesto supera a los modelos de caja negra e interpretables existentes en rendimiento predictivo y genera mapas de evidencia dispersa específicos de cada clase en una sola pasada. El código está disponible en GitHub.