Dans cet article, nous proposons une architecture de fusion multi-niveaux basée sur l'apprentissage profond pour la segmentation précise des tumeurs cérébrales par imagerie par résonance magnétique (IRM). Contrairement aux méthodes existantes, telles que 3D U-Net, qui s'appuient uniquement sur les caractéristiques visuelles extraites des séquences IRM, cette étude exploite les connaissances sémantiques contenues dans les rapports médicaux. Le modèle CLIP (Contrastive Language-Image Pre-training) est utilisé pour intégrer les informations au niveau des pixels, des caractéristiques et de la sémantique afin de permettre un traitement complet des données de bas niveau vers des concepts de haut niveau grâce à la fusion multi-niveaux. Le modèle proposé combine la capacité de compréhension sémantique du modèle CLIP avec la capacité d'extraction de caractéristiques spatiales de 3D U-Net grâce à trois mécanismes : la liaison sémantique 3D-2D, le guidage sémantique intermodal et le mécanisme d'attention sémantique. Les résultats expérimentaux sur l'ensemble de données BraTS 2020 montrent que le modèle proposé atteint 0,8567, ce qui représente une amélioration de 4,8 % du coefficient Dice global par rapport au U-Net 3D existant, et le coefficient Dice augmente de 7,3 % dans la région tumorale d'amélioration cliniquement importante (ET).