본 논문은 의료 영상 분류를 위한 해석 가능한 하이브리드 완전 합성곱 CNN-Transformer 아키텍처를 제안합니다. 기존 CNN과 ViT의 장점을 결합한 하이브리드 모델은 해석이 어려운 단점이 있으나, 본 연구는 CNN과 Transformer를 결합하여 의료 영상의 국소적 특징과 전역적 의존성을 효과적으로 포착하면서 동시에 모델의 의사결정 과정을 직접적으로 반영하는 신뢰할 수 있고 국소화된 증거 지도(evidence map)를 생성합니다. 색채 안저 사진을 이용한 두 가지 의료 영상 분류 작업에서 기존 블랙박스 및 해석 가능한 모델보다 우수한 예측 성능을 달성하며, 단일 전방 패스에서 클래스별 희소 증거 지도를 제공합니다.