본 논문은 의료 영상 분석에서 해석 가능성을 갖는 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT)의 하이브리드 모델을 제안합니다. 기존 하이브리드 모델들의 해석 어려움을 해결하기 위해, 설계 단계부터 해석 가능성을 고려한 완전 합성곱 CNN-트랜스포머 아키텍처를 개발하였습니다. 이 모델은 망막 질환 감지에 적용되어 기존 블랙박스 및 해석 가능한 모델들보다 우수한 예측 성능을 달성하였고, 단일 전방 통과(single forward pass)를 통해 클래스별 희소 증거 지도(sparse evidence maps)를 생성합니다. 공개된 코드를 통해 재현성을 확보하였습니다.