Este artículo propone un modelo híbrido interpretable para el análisis de imágenes médicas que combina las capacidades de extracción de características locales de las CNN con las capacidades de captura de dependencias globales de ViT. Para abordar los desafíos de interpretabilidad de los modelos híbridos existentes, desarrollamos una arquitectura CNN-Transformer totalmente convolucional que consideró la interpretabilidad desde la etapa de diseño. Este modelo se aplicó a dos tareas de análisis de imágenes médicas para la detección de enfermedades de la retina, logrando un rendimiento predictivo superior al de los modelos de caja negra e interpretables existentes. Además, genera mapas de evidencia dispersa específicos de cada clase mediante una sola pasada hacia adelante. El código está disponible en GitHub.