본 논문은 의료 영상 분석에 특화된 경량화된 Vision Transformer 아키텍처인 CoMViT를 제시합니다. CoMViT는 컨볼루셔널 토크나이저, 대각선 마스킹, 동적 온도 스케일링, 풀링 기반 시퀀스 집계를 통합하여 성능과 일반화 능력을 향상시켰습니다. 약 450만 개의 파라미터로 구성된 CoMViT는 12개의 MedMNIST 데이터셋에서 강력한 성능을 보였으며, 더 깊은 CNN 및 ViT 변형 모델을 능가하는 성능을 보이면서도 파라미터 수를 5~20배 줄였습니다. Grad-CAM 분석을 통해 CoMViT가 임상적으로 관련된 영역에 일관되게 집중함을 확인했습니다.