इस शोधपत्र में, हम चुंबकीय अनुनाद इमेजिंग (MRI) का उपयोग करके मस्तिष्क ट्यूमर के सटीक विभाजन के लिए गहन शिक्षण पर आधारित एक बहु-स्तरीय संलयन संरचना का प्रस्ताव करते हैं। 3D U-Net जैसी मौजूदा विधियों के विपरीत, जो केवल MRI अनुक्रमों से निकाले गए दृश्य लक्षणों पर निर्भर करती हैं, यह अध्ययन चिकित्सा रिपोर्टों में निहित अर्थगत ज्ञान का उपयोग करता है। बहु-स्तरीय संलयन के माध्यम से निम्न-स्तरीय डेटा से उच्च-स्तरीय अवधारणाओं तक व्यापक प्रसंस्करण को सक्षम करने के लिए पिक्सेल-स्तरीय, विशेषता-स्तरीय और अर्थगत-स्तरीय सूचनाओं को एकीकृत करने के लिए कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP) मॉडल का उपयोग किया जाता है। प्रस्तावित मॉडल CLIP मॉडल की अर्थगत समझ क्षमता को 3D U-Net की स्थानिक विशेषता निष्कर्षण क्षमता के साथ तीन तंत्रों के माध्यम से जोड़ता है: 3D-2D अर्थगत लिंकिंग, क्रॉस-मोडल अर्थगत मार्गदर्शन, और अर्थगत-आधारित ध्यान तंत्र। BraTS 2020 डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित मॉडल 0.8567 प्राप्त करता है, जो मौजूदा 3D U-Net की तुलना में समग्र डाइस गुणांक में 4.8% सुधार है, और नैदानिक रूप से महत्वपूर्ण संवर्द्धन ट्यूमर (ET) क्षेत्र में डाइस गुणांक 7.3% बढ़ जाता है।