본 논문은 자기공명영상(MRI)을 이용한 뇌종양의 정확한 분할을 위한 다단계 융합 아키텍처를 제시합니다. 기존의 심층 학습 기반 뇌종양 분할 방법들이 MRI 시퀀스에서 추출한 시각적 특징에 주로 의존하는 한계를 극복하고자, 의료 보고서에 내재된 의미 정보를 활용합니다. 특히, Contrastive Language-Image Pre-training (CLIP) 모델의 의미 이해 능력과 3D U-Net의 공간적 특징 추출 능력을 결합하여 3D-2D 의미 연결, 교차 모달 의미 안내, 의미 기반 주의 메커니즘 등 세 가지 메커니즘을 통해 픽셀 수준, 특징 수준, 의미 수준 정보를 통합적으로 처리합니다. BraTS 2020 데이터셋 실험 결과, 기존 3D U-Net 대비 전체 Dice 계수가 4.8% 향상된 0.8567을 달성하였으며, 임상적으로 중요한 ET(enhancing tumor) 영역에서는 Dice 계수가 7.3% 증가하는 성능 향상을 보였습니다.