Sign In

CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

Created by
  • Haebom
Category
Empty

저자

Aon Safdar, Mohamed Saadeldin

개요

본 논문은 의료 영상 분석에 특화된 경량화된 Vision Transformer 아키텍처인 CoMViT를 제시합니다. CoMViT는 컨볼루셔널 토크나이저, 대각선 마스킹, 동적 온도 스케일링, 풀링 기반 시퀀스 집계를 통합하여 성능과 일반화 능력을 향상시켰습니다. 약 450만 개의 파라미터로 구성된 CoMViT는 12개의 MedMNIST 데이터셋에서 강력한 성능을 보였으며, 더 깊은 CNN 및 ViT 변형 모델을 능가하는 성능을 보이면서도 파라미터 수를 5~20배 줄였습니다. Grad-CAM 분석을 통해 CoMViT가 임상적으로 관련된 영역에 일관되게 집중함을 확인했습니다.

시사점, 한계점

경량화된 ViT 아키텍처 설계를 통해 의료 영상 분석의 효율성과 해석 가능성을 높임.
다양한 MedMNIST 데이터셋에서 우수한 성능을 보이며 일반화 능력을 입증.
파라미터 수를 대폭 줄여 계산 비용을 절감.
Grad-CAM 분석을 통해 모델의 해석 가능성을 높임.
단일 연구에서 12개의 MedMNIST 데이터셋에 대한 결과만 제시되었으며, 다양한 의료 영상 데이터셋에 대한 추가 검증이 필요함.
모델의 실제 임상 환경 적용에 대한 추가 연구가 필요함.
👍