본 논문은 다중 모달 의료 영상 융합을 위한 새로운 end-to-end CNN-Mamba 하이브리드 아키텍처인 ClinicalFMamba를 제안합니다. 기존 CNN의 국소적 특징 추출 능력과 Transformer의 장거리 의존성 모델링 능력을 결합하여 2D 및 3D 영상 모두에 대한 효율적인 융합을 목표로 합니다. 특히 3D 영상의 경우, 삼면 스캔 전략을 통해 부피 데이터의 장거리 의존성을 효과적으로 학습합니다. 세 가지 데이터셋에 대한 종합적인 평가를 통해 다양한 정량적 지표에서 우수한 융합 성능과 실시간 융합 속도를 달성함을 보여주고, 2D/3D 뇌종양 분류 작업에서도 기존 방법보다 우수한 성능을 입증합니다. 이는 실시간 임상 적용에 적합한 효율적인 다중 모달 의료 영상 융합의 새로운 패러다임을 제시합니다.