Este artículo propone HiTeC, un nuevo marco para el aprendizaje autosupervisado en hipergrafos atribuidos a texto (TAHG). Destacamos las limitaciones de los métodos existentes basados en el aprendizaje contrastivo, que no utilizan eficazmente la información textual en los TAHG, presentan ruido debido al aumento aleatorio de datos y presentan dificultades para capturar dependencias de largo alcance. HiTeC consta de una etapa de preentrenamiento del codificador de texto que utiliza una función objetivo contrastiva con reconocimiento de estructura, seguida de una segunda etapa que utiliza estrategias de aumento con reconocimiento de semántica, como el aumento de texto mejorado con indicaciones y la eliminación de hiperbordes con reconocimiento de semántica. Además, proponemos una función de pérdida contrastiva multiescala que captura mejor las dependencias de largo alcance mediante la contrastividad a nivel de subgrafo basada en s-walk. Este diseño en dos etapas desacopla el preentrenamiento del codificador de texto del aprendizaje contrastivo de hipergrafos, mejorando así la escalabilidad y manteniendo la calidad de la representación. Demostramos la eficacia de HiTeC mediante experimentos exhaustivos.