Sign In

From Claims to Evidence: A Unified Framework and Critical Analysis of CNN vs. Transformer vs. Mamba in Medical Image Segmentation

Created by
  • Haebom
Category
Empty

저자

Pooya Mohammadi Kazaj, Giovanni Baj, Yazdan Salimi, Anselm W. Stark, Waldo Valenzuela, George CM. Siontis, Habib Zaidi, Mauricio Reyes, Christoph Graeni, Isaac Shiri

개요

본 논문은 의료 영상 분할에서 최첨단 모델인 nnUNet과의 경쟁력 있는 성능 달성을 위해 nnUNet을 기반으로 다양한 심층 학습 아키텍처(CNN, Transformer, Mamba 기반 모델 포함)를 통합한 오픈 소스 벤치마킹 프레임워크인 nnUZoo를 제시합니다. 여섯 가지 다양한 의료 영상 분할 데이터셋(현미경, 초음파, CT, MRI, PET)을 사용하여 CNN, Transformer, Mamba 기반의 다섯 가지 새로운 아키텍처(X2Net: UNETR2Net, SwT2Net, SS2D2Net, Alt1DM2Net, MambaND2Net)를 포함한 다양한 모델들의 성능을 Dice score와 계산 효율성 측면에서 U2Net 및 nnUNet과 비교 평가합니다. 특히, 제안된 Mamba 기반 X2Net 아키텍처 중 SS2D2Net은 nnUNet 및 U2Net과 비슷한 정확도를 달성하면서 매개변수 수는 적었지만, 훈련 시간이 상당히 길었다는 점을 보여줍니다.

시사점, 한계점

시사점:
nnUZoo 프레임워크를 통해 다양한 의료 영상 분할 아키텍처의 성능을 공정하게 비교할 수 있는 기반을 제공합니다.
CNN 기반 모델(nnUNet, U2Net)은 속도와 정확도 면에서 효과적인 의료 영상 분할 모델임을 확인했습니다.
Mamba 기반 X2Net 아키텍처(특히 SS2D2Net)는 적은 매개변수로 경쟁력 있는 정확도를 달성할 수 있음을 보여주었습니다.
한계점:
Transformer 기반 모델은 특정 영상 modality에 대해서는 유망하지만 높은 계산 비용이 소요됩니다.
Mamba 기반 모델은 정확도 측면에서는 경쟁력이 있지만, 훈련 시간이 상당히 길어 모델 효율성과 계산 비용 간의 상충 관계를 보여줍니다.
👍