यह शोधपत्र चिकित्सा छवि वर्गीकरण की सटीकता, व्याख्यात्मकता और सामान्यीकरण क्षमता में सुधार हेतु व्याख्यात्मक विज़न माम्बा (EVM-फ़्यूज़न) आर्किटेक्चर प्रस्तुत करता है। EVM-फ़्यूज़न एक बहु-पास डिज़ाइन का उपयोग करता है जिसमें DenseNet और U-Net-आधारित पथों का उपयोग किया जाता है, जिनमें से प्रत्येक को एक विज़न माम्बा (Vim) मॉड्यूल द्वारा संवर्धित किया जाता है। विभिन्न विशेषताओं को एक द्वि-चरणीय संलयन प्रक्रिया के माध्यम से गतिशील रूप से एकीकृत किया जाता है जिसमें क्रॉस-मोडल ध्यान और एक पुनरावृत्त न्यूरल एल्गोरिथम फ़्यूज़न (NAF) ब्लॉक शामिल है। आंतरिक व्याख्यात्मकता को पथ-विशिष्ट स्थानिक ध्यान, Vim Δ-मान मानचित्रों, मूल विशेषता SE-ध्यान और क्रॉस-मोडल ध्यान भारों के माध्यम से आंतरिककृत किया जाता है। विविध नौ-वर्ग, बहु-संस्थागत चिकित्सा छवि डेटासेट पर प्रायोगिक परिणाम मज़बूत वर्गीकरण प्रदर्शन प्रदर्शित करते हैं, 99.75% परीक्षण सटीकता प्राप्त करते हैं, जो चिकित्सा निदान में विश्वसनीय AI की क्षमता को उजागर करता है।