Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Máscara y Emparejamiento: Aprender a Reconocer Matemáticas Escritas a Mano con Atención Autosupervisada

Created by
  • Haebom

Autor

Shree Mitra, Ritabrata Chakraborty, Nilkanta Sahu

Describir

Este artículo presenta un novedoso marco de aprendizaje autosupervisado (SSL) para el reconocimiento de expresiones matemáticas manuscritas (HMER). Diseñado para eliminar la necesidad de datos etiquetados convencionales y costosos, el marco preentrena un codificador de imágenes combinando pérdidas contrastivas globales y locales. Esto permite el aprendizaje de representaciones tanto globales como de granularidad fina. Además, proponemos una novedosa red de atención autosupervisada, entrenada mediante una estrategia de enmascaramiento espacial progresivo. Este mecanismo de atención se centra en regiones significativas, como operadores, exponentes y notación matemática anidada, sin supervisión. El programa de enmascaramiento progresivo mejora la comprensión estructural al aumentar la robustez de la red ante la información visual faltante u ocluida. El proceso completo consta de (1) preentrenamiento autosupervisado del codificador, (2) entrenamiento de atención autosupervisado y (3) ajuste fino supervisado mediante un decodificador Transformer (para la generación de secuencias LaTeX). Amplios experimentos en el banco de pruebas CROHME demuestran la eficacia del mecanismo de atención progresiva, superando a los modelos SSL y de referencia totalmente supervisados ​​existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco SSL que entrena modelos de reconocimiento de expresiones matemáticas escritas a mano de alto rendimiento sin datos etiquetados costosos.
Mejorar la comprensión estructural de expresiones matemáticas a través de redes de atención autosupervisadas que utilizan estrategias de enmascaramiento espacial progresivo.
Logra un rendimiento superior al SSL existente y a los modelos totalmente supervisados ​​en el benchmark CROHME.
Contribuir a la solución del problema de escasez de datos en el campo HMER a través de un método de aprendizaje autosupervisado eficiente.
Limitations:
Se requiere mayor investigación para evaluar el rendimiento de generalización del método propuesto. Se requieren evaluaciones adicionales del rendimiento para fórmulas matemáticas de diversos estilos y complejidades.
Posible vulnerabilidad a ciertos tipos de notación matemática o escritura manuscrita.
Se necesitan más investigaciones para determinar los parámetros óptimos para la estrategia de enmascaramiento progresivo.
Falta de evaluación del desempeño y análisis comparativo en conjuntos de datos a gran escala.
👍