Este artículo presenta la arquitectura Explainable Vision Mamba (EVM-Fusion) para mejorar la precisión, la interpretabilidad y la generalización de la clasificación de imágenes médicas. EVM-Fusion emplea un diseño multipaso que utiliza rutas basadas en DenseNet y U-Net, cada una optimizada por un módulo Vision Mamba (Vim). Diversas características se integran dinámicamente mediante un proceso de fusión de dos pasos que involucra atención intermodal y un bloque iterativo de Fusión de Algoritmos Neurales (NAF). La explicabilidad intrínseca se internaliza mediante atención espacial específica de la ruta, mapas de valores Δ de Vim, atención SE de la característica original y ponderaciones de atención intermodal. Los resultados experimentales en un conjunto diverso de datos de imágenes médicas multiinstitucionales de nueve clases demuestran un rendimiento de clasificación robusto, alcanzando una precisión de prueba del 99,75 %, lo que resalta el potencial de la IA confiable en el diagnóstico médico.