Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards Scalable Training for Handwritten Mathematical Expression Recognition

Created by
  • Haebom

作者

Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong

概要

本論文では、手書き数学式認識(HMER)分野のデータ不足の問題を解決するために、大規模なLaTeXレンダリング式と限られた手書き式を統合する新しい方法を提案します。大規模なLaTeX式を作成するためのスケーラブルなデータエンジンを開発し、8000万を超える高品質の学習インスタンスで構成され、現在まで最大の数式データセットであるTex80Mを構築しました。これに基づいて、Tex80Mと比較的小さいHMEデータセットを混合学習し、最初の大規模HMERモデルであるTexTellerを提案します。 TexTellerは、ほぼすべてのベンチマークで最先端(SOTA)性能を達成しました。モデル、データセット、コードベースを公開し、その後の研究を支援します。

Takeaways、Limitations

Takeaways:
大規模な数式データセットTex80Mの構築によるHMER分野のデータ不足の問題解決に貢献
大規模なHMERモデルTexTeller開発によりSOTA性能を達成
モデル、データセット、コードベースの公開によるHMER分野の研究の活性化
Limitations:
LaTeXベースの合成データセットの使用による手書きデータとのドメインギャップの存在の可能性
Tex80Mのデータ品質の追加検証が必要です。
実際の手書き式の多様性を完全に反映できない可能性。
👍