Sign In

MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis

Created by
  • Haebom
Category
Empty

저자

Wei Dai, Steven Wang, Jun Liu

개요

본 논문은 3차원 의료 영상의 효율적인 분할을 위한 새로운 아키텍처인 MobileViM을 제안합니다. 기존의 CNN이나 ViT와 달리, 1차원 데이터를 선형적으로 처리하는 Mamba 모델을 기반으로 하여 차원에 독립적인 메커니즘과 양방향 탐색 기법을 도입했습니다. 또한, 다양한 의료 영상 모달리티에 대한 효율성과 정확도를 향상시키기 위해 크로스-스케일 브리징 기법을 활용합니다. MobileViM은 NVIDIA RTX 4090 GPU에서 90 FPS 이상의 분할 속도를 달성하여 기존 최첨단 모델보다 24 FPS 이상 빠른 성능을 보여줍니다. 실험 결과, PENGWIN, BraTS2024, ATLAS, Toothfairy2 데이터셋에서 각각 92.72%, 86.69%, 80.46%, 77.43%의 Dice 유사도 점수를 달성하여 기존 모델을 상당히 능가하는 성능을 입증했습니다.

시사점, 한계점

시사점:
3차원 의료 영상 분할 속도를 획기적으로 향상시켰습니다 (90 FPS 이상).
기존 최첨단 모델보다 월등히 높은 정확도를 달성했습니다 (Dice 유사도 점수 향상).
차원에 독립적인 메커니즘과 양방향 탐색 기법, 크로스-스케일 브리징 기법을 통해 효율성과 정확도를 개선했습니다.
다양한 의료 영상 모달리티에 적용 가능성을 보여주었습니다.
한계점:
Mamba 모델을 기반으로 하므로, Mamba 모델 자체의 한계가 MobileViM에도 영향을 미칠 수 있습니다.
다양한 의료 영상 데이터셋에 대한 일반화 성능에 대한 추가적인 검증이 필요합니다.
특정 GPU (NVIDIA RTX 4090) 환경에서의 성능 평가이므로, 다른 하드웨어 환경에서의 성능은 다를 수 있습니다.
논문에서 제시된 데이터셋 외 다른 데이터셋에 대한 성능 분석이 부족합니다.
👍