本論文は、医療画像分類の正確性、解釈可能性および一般化可能性を向上させるために説明可能なビジョンマムバ(EVM-Fusion)アーキテクチャを提示する。 EVM-Fusionは、DenseNetとU-Netベースのパスを利用するマルチパス設計を採用し、各パスはビジョンMambaモジュールで拡張されています。様々な特徴は、クロスモーダルアテンションと反復神経アルゴリズム融合(NAF)ブロックを介した2段階融合プロセスを経て動的に統合される。経路別空間アテンション、VimΔ値マップ、既存の特徴SEアテンション、およびクロスモーダルアテンション重み付けを通じて、本質的な説明可能性を内在化する。 9つのクラスのさまざまな多施設医療画像データセットの実験結果、EVM-Fusionは99.75%のテスト精度を達成し、強力な分類性能を示し、医療診断の分野で信頼できるAIの可能性を強調します。