Cet article présente l'architecture Explainable Vision Mamba (EVM-Fusion) visant à améliorer la précision, l'interprétabilité et la généralisabilité de la classification des images médicales. EVM-Fusion utilise une conception multipasse utilisant des chemins basés sur DenseNet et U-Net, chacun amélioré par un module Vision Mamba (Vim). Diverses fonctionnalités sont intégrées dynamiquement via un processus de fusion en deux étapes impliquant l'attention intermodale et un bloc itératif de fusion d'algorithmes neuronaux (NAF). L'explicabilité intrinsèque est internalisée par l'attention spatiale spécifique au chemin, les cartes de valeurs Δ Vim, l'attention SE des fonctionnalités originales et les pondérations d'attention intermodale. Les résultats expérimentaux sur un ensemble de données d'images médicales multi-institutionnelles de neuf classes démontrent des performances de classification robustes, atteignant une précision de test de 99,75 %, soulignant le potentiel d'une IA fiable dans le diagnostic médical.