En este artículo, proponemos una arquitectura de fusión multinivel basada en aprendizaje profundo para la segmentación precisa de tumores cerebrales mediante imágenes por resonancia magnética (IRM). A diferencia de los métodos existentes, como 3D U-Net, que se basan únicamente en características visuales extraídas de secuencias de IRM, este estudio utiliza el conocimiento semántico contenido en informes médicos. El modelo de preentrenamiento contrastivo de lenguaje e imagen (CLIP) se utiliza para integrar información a nivel de píxel, a nivel de característica y a nivel semántico para permitir el procesamiento integral de datos de bajo nivel a conceptos de alto nivel mediante fusión multinivel. El modelo propuesto combina la capacidad de comprensión semántica del modelo CLIP con la capacidad de extracción de características espaciales de 3D U-Net a través de tres mecanismos: enlace semántico 3D-2D, guía semántica intermodal y mecanismo de atención semántica. Los resultados experimentales en el conjunto de datos BraTS 2020 muestran que el modelo propuesto alcanza 0,8567, lo que representa una mejora del 4,8 % en el coeficiente de Dice general en comparación con el 3D U-Net existente, y el coeficiente de Dice aumenta en un 7,3 % en la región del tumor realzador (ET) clínicamente importante.