DCMM-Transformer: 의료 영상 분석을 위한 새로운 Vision Transformer 아키텍처
개요
본 논문은 표준 Vision Transformer(ViT)가 활용하지 못하는 해부학적 구조(기관, 조직, 병리 부위 등)를 효과적으로 활용하기 위해 제안된 새로운 ViT 아키텍처인 DCMM-Transformer를 소개한다. DCMM-Transformer는 Degree-Corrected Mixed-Membership (DCMM) 모델을 셀프 어텐션에 가산 편향으로 통합하여, 복잡한 커뮤니티 구조를 완전히 미분 가능하고 해석 가능한 방식으로 모델링한다. 기존의 곱셈 마스킹 및 이진 샘플링 방식의 한계를 극복하고, 의료 영상 데이터셋에서 우수한 성능과 일반화 능력을 입증했다. 또한, 학습된 그룹 구조와 구조화된 어텐션 조절을 통해 해부학적으로 의미 있고 의미론적으로 일관된 어텐션 맵을 생성하여 해석 가능성을 향상시켰다.