本論文は,磁気共鳴映像(MRI)を用いた脳腫瘍の正確な分割を目指し,深層学習基盤の多レベル融合アーキテクチャを提示する。従来の3D U-Netのような方法がMRIシーケンスから抽出された視覚的特徴にのみ依存するのとは異なり、この研究は医療報告書に含まれる意味論的知識を利用します。 Contrastive Language-Image Pre-training(CLIP)モデルを使用して、ピクセルレベル、特徴レベル、セマンティックレベルの情報を統合するマルチレベル融合により、低レベルのデータから高レベルの概念まで包括的な処理を可能にします。 3D-2Dセマンティックリンク、クロスモーダルセマンティックガイダンス、セマンティックベースの注意メカニズムなど、3つのメカニズムを使用して、CLIPモデルの意味理解能力と3D U-Netの空間的特徴抽出能力を組み合わせます。 BraTS 2020データセットの実験の結果、提案されたモデルは、既存の3D U-Netと比較して全体のDice係数が4.8%改善された0.8567を達成し、臨床的に重要なエンハンシングチューブ(ET)領域ではDice係数が7.3%増加しました。