本論文は、脳腫瘍分割の精度を高めるために開発された3段階融合アーキテクチャを提示します。この方法は、ピクセル、特徴、およびセマンティックレベルで情報を処理し、磁気共鳴イメージング(MRI)を含むさまざまなモダリティデータを利用します。ピクセルレベルでは、物理モデリングを通じてMRIを超音波および合成コンピュータ断層撮影(CT)データに拡張します。特徴レベルでは、変圧器ベースのクロスモダリティ特徴融合を行い、3人の専門家モデル(MRI、US、CT)を統合する。セマンティックレベルでは、GPT-4Vで生成された臨床テキスト知識をCLIPコントラスト学習とFiLMを使用して空間指針信号に変換します。この3つのステップは、データ拡張から特徴抽出、セマンティックガイドラインまでの完全な処理チェーンを構成し、BraTS 2020、2021、2023データセットで検証されています。