Este artículo propone un modelo híbrido que combina una red neuronal convolucional (CNN) y un transformador de visión (ViT) para la interpretabilidad en el análisis de imágenes médicas. Para abordar los desafíos de interpretabilidad de los modelos híbridos existentes, desarrollamos una arquitectura de CNN-transformador completamente convolucional que consideró la interpretabilidad desde la etapa de diseño. Este modelo se aplicó a la detección de enfermedades de la retina, logrando un rendimiento predictivo superior al de los modelos de caja negra e interpretables existentes. Además, genera mapas de evidencia dispersa específicos de cada clase mediante una sola pasada hacia adelante. La reproducibilidad se garantizó mediante código fuente abierto.