PiPViT (Patch-based Visual Interpretable Prototypes)은 의료 영상에서의 해석 가능성을 향상시키기 위해 제안된 새로운 프로토타입 기반 이미지 인식 모델입니다. 기존 프로토타입 기반 방법들의 한계인 과도하게 세분화된 프로토타입 및 입력 픽셀 공간에서의 비일관적인 시각화 문제를 해결하기 위해, Vision Transformer(ViT)를 활용하여 패치 간의 장거리 의존성을 포착하고, 이미지 수준 레이블만을 사용하여 병변의 범위를 근사하는 강건하고 사람이 이해할 수 있는 프로토타입을 학습합니다. 대조 학습과 다중 해상도 입력 처리를 통해 다양한 크기의 바이오마커를 효과적으로 국재화합니다. 망막 OCT 이미지 분류 작업에서 여러 데이터셋에 대한 평가 결과, 기존 최첨단 방법들과 비교하여 경쟁력 있는 정량적 성능을 달성하면서 더 의미있는 설명을 제공하는 것으로 나타났습니다.