Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia un entrenamiento escalable para el reconocimiento de expresiones matemáticas manuscritas

Created by
  • Haebom

Autor

Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong

Describir

Para abordar la escasez de datos en el campo del reconocimiento de expresiones matemáticas manuscritas (HMER), este artículo propone un método novedoso para integrar ecuaciones generadas en LaTeX a gran escala con un número limitado de ecuaciones manuscritas. Desarrollamos un motor de datos escalable para la generación de ecuaciones LaTeX a gran escala y construimos Tex80M, el mayor conjunto de datos de ecuaciones hasta la fecha, con más de 80 millones de instancias de entrenamiento de alta calidad. Basándonos en esto, proponemos TexTeller, el primer modelo HMER a gran escala, mediante entrenamiento híbrido con Tex80M y el relativamente pequeño conjunto de datos HME. TexTeller alcanza un rendimiento de vanguardia (SOTA) en prácticamente todos los benchmarks. Publicamos el modelo, el conjunto de datos y el código fuente para impulsar futuras investigaciones.

Takeaways, Limitations

Takeaways:
Contribuyó a resolver el problema de escasez de datos en el campo HMER mediante la creación de un conjunto de datos de fórmulas a gran escala, Tex80M.
Lograr el rendimiento SOTA mediante el desarrollo del modelo HMER a gran escala TexTeller.
Fomentar la investigación en el campo HMER mediante la divulgación de modelos, conjuntos de datos y bases de código.
Limitations:
Posible brecha de dominio con datos escritos a mano debido al uso de conjuntos de datos sintéticos basados ​​en LaTeX.
Se necesita una mayor validación de la calidad de los datos de Tex80M.
Es posible que no refleje perfectamente la diversidad de fórmulas manuscritas reales.
👍