本論文は、医療画像解析において解釈可能性を有する畳み込みニューラルネットワーク(CNN)とビジョントランス(ViT)のハイブリッドモデルを提案する。従来のハイブリッドモデルの解釈困難を解決するために、設計段階から解釈可能性を考慮した完全合成積CNN-トランスアーキテクチャを開発しました。このモデルは網膜疾患の検出に適用され、従来のブラックボックスおよび解釈可能なモデルよりも優れた予測性能を達成し、シングルフォワードパスを介してクラス別のスパース証拠マップを生成します。公開されたコードを通じて再現性を確保しました。