यह शोधपत्र चिकित्सा छवि विश्लेषण में व्याख्यात्मकता के लिए एक कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) और एक विज़न ट्रांसफ़ॉर्मर (ViT) को मिलाकर एक हाइब्रिड मॉडल प्रस्तावित करता है। मौजूदा हाइब्रिड मॉडलों की व्याख्यात्मकता संबंधी चुनौतियों का समाधान करने के लिए, हमने एक पूर्णतः कन्वोल्यूशनल CNN-ट्रांसफ़ॉर्मर आर्किटेक्चर विकसित किया है जो डिज़ाइन चरण से ही व्याख्यात्मकता पर विचार करता है। इस मॉडल का उपयोग रेटिना रोग पहचान के लिए किया गया, जिससे मौजूदा ब्लैक-बॉक्स और व्याख्यात्मक मॉडलों की तुलना में बेहतर पूर्वानुमानात्मक प्रदर्शन प्राप्त हुआ। यह एकल फ़ॉरवर्ड पास के माध्यम से वर्ग-विशिष्ट विरल साक्ष्य मानचित्र भी उत्पन्न करता है। ओपन सोर्स कोड के माध्यम से पुनरुत्पादन क्षमता सुनिश्चित की गई।