Este artículo aborda el problema de la integración de datos de grafos estructurados con información textual enriquecida de nodos, especialmente para la clasificación de nodos heterogéneos. Los enfoques existentes son computacionalmente costosos o tienen dificultades para fusionar eficazmente diferentes modalidades. En este artículo, proponemos una arquitectura novedosa, el Graph Mask Language Model (GMLM), que combina eficientemente redes neuronales de grafos (GNN) y modelos de lenguaje pre-entrenados (PLM). GMLM introduce tres innovaciones clave: (i) una estrategia dinámica de selección de nodos activos para el procesamiento de texto PLM escalable, (ii) un paso de pre-entrenamiento contrastivo específico de GNN que utiliza enmascaramiento suave con tokens de grafo [MASK] aprendibles, y (iii) un módulo de fusión dedicado que integra incrustaciones de GNN basadas en RGCN con incrustaciones PLM (GTE-Small y DistilBERT). Demostramos la superioridad de GMLM a través de extensos experimentos en puntos de referencia heterogéneos (Cornell, Wisconsin, Texas). En particular, GMLM (DistilBERT) logra mejoras significativas de rendimiento con respecto a los modelos de referencia de vanguardia anteriores, con una mejora de la precisión de más del 4,7 % en Cornell y más del 2,0 % en Texas. Este estudio destaca los beneficios de la interacción con PLM orientada a objetivos y el preentrenamiento específico para cada modalidad para un aprendizaje eficiente y mejorado en gráficos con alto contenido de texto.