Este artículo presenta un novedoso marco de aprendizaje autosupervisado (SSL) para el reconocimiento de expresiones matemáticas manuscritas (HMER). Diseñado para eliminar la necesidad de datos etiquetados convencionales y costosos, el marco preentrena un codificador de imágenes combinando pérdidas contrastivas globales y locales. Esto permite el aprendizaje de representaciones tanto globales como de granularidad fina. Además, proponemos una novedosa red de atención autosupervisada, entrenada mediante una estrategia de enmascaramiento espacial progresivo. Este mecanismo de atención se centra en regiones significativas, como operadores, exponentes y notación matemática anidada, sin supervisión. El programa de enmascaramiento progresivo mejora la comprensión estructural al aumentar la robustez de la red ante la información visual faltante u ocluida. El proceso completo consta de (1) preentrenamiento autosupervisado del codificador, (2) entrenamiento de atención autosupervisado y (3) ajuste fino supervisado mediante un decodificador Transformer (para la generación de secuencias LaTeX). Amplios experimentos en el banco de pruebas CROHME demuestran la eficacia del mecanismo de atención progresiva, superando a los modelos SSL y de referencia totalmente supervisados existentes.