この論文は、手書きで書かれた数学的認識(HMER)問題のための新しい自己地図学習(SSL)フレームワークを提示します。従来の高コストのラベル付きデータを必要としないように設計されており、グローバルとローカルのコントラスト損失を組み合わせて画像エンコーダを事前トレーニングします。これにより、全体的な表現と詳細な表現の両方を学習できます。さらに、新しい磁気マップアテンションネットワークを提案し、これは段階的な空間マスキング戦略を使用して訓練されます。このアテンションメカニズムは、演算子、指数、ネストされた数学表記などの意味のある領域に集中するように設計されており、監督を必要としません。プログレッシブマスキングカリキュラムは、ネットワークが欠落しているか隠された視覚情報にますます強くなるようにすることで、構造的理解を向上させます。完全なパイプラインは、(1)エンコーダの自己マップ事前トレーニング、(2)磁気マップアテンション学習、(3)トランスデコーダを使用した監督微調整(LaTeXシーケンス生成)で構成されています。 CROHMEベンチマークの広範な実験により、従来のSSLおよび完全監督基準モデルを上回る性能を示し、徐々にアテンションメカニズムの効果を実証しました。