Trong bài báo này, chúng tôi đề xuất một kiến trúc hợp nhất đa cấp dựa trên học sâu để phân đoạn chính xác khối u não bằng phương pháp chụp cộng hưởng từ (MRI). Không giống như các phương pháp hiện có như 3D U-Net chỉ dựa trên các đặc điểm hình ảnh được trích xuất từ chuỗi MRI, nghiên cứu này sử dụng kiến thức ngữ nghĩa có trong các báo cáo y khoa. Mô hình tiền huấn luyện ngôn ngữ-hình ảnh tương phản (CLIP) được sử dụng để tích hợp thông tin ở cấp độ pixel, cấp độ đặc điểm và cấp độ ngữ nghĩa, cho phép xử lý toàn diện từ dữ liệu cấp thấp đến các khái niệm cấp cao thông qua hợp nhất đa cấp. Mô hình đề xuất kết hợp khả năng hiểu ngữ nghĩa của mô hình CLIP với khả năng trích xuất đặc điểm không gian của 3D U-Net thông qua ba cơ chế: liên kết ngữ nghĩa 3D-2D, hướng dẫn ngữ nghĩa liên mô hình và cơ chế chú ý dựa trên ngữ nghĩa. Kết quả thử nghiệm trên tập dữ liệu BraTS 2020 cho thấy mô hình đề xuất đạt 0,8567, cải thiện 4,8% hệ số Dice tổng thể so với U-Net 3D hiện có và hệ số Dice tăng 7,3% ở vùng khối u tăng cường quan trọng về mặt lâm sàng (ET).