दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

हस्तलिखित गणितीय अभिव्यक्ति पहचान के लिए स्केलेबल प्रशिक्षण की ओर

Created by
  • Haebom

लेखक

हाओयांग ली, जियाकिंग ली, जियालुन काओ, ज़ोंगयुआन यांग, योंगपिंग ज़िओंग

रूपरेखा

हस्तलिखित गणितीय अभिव्यक्ति पहचान (HMER) के क्षेत्र में डेटा की कमी को दूर करने के लिए, यह शोधपत्र सीमित हस्तलिखित समीकरणों के साथ बड़े पैमाने के LaTeX रेंडर किए गए समीकरणों को एकीकृत करने की एक नवीन विधि प्रस्तावित करता है। हम बड़े पैमाने पर LaTeX समीकरण निर्माण के लिए एक स्केलेबल डेटा इंजन विकसित करते हैं और Tex80M का निर्माण करते हैं, जो अब तक का सबसे बड़ा समीकरण डेटासेट है, जिसमें 80 मिलियन से अधिक उच्च-गुणवत्ता वाले प्रशिक्षण उदाहरण शामिल हैं। इसके आधार पर, हम Tex80M और अपेक्षाकृत छोटे HME डेटासेट के साथ हाइब्रिड प्रशिक्षण द्वारा, पहला बड़े पैमाने का HMER मॉडल, TexTeller प्रस्तावित करते हैं। TexTeller लगभग सभी बेंचमार्क पर अत्याधुनिक (SOTA) प्रदर्शन प्राप्त करता है। हम आगे के शोध में सहायता के लिए मॉडल, डेटासेट और कोडबेस को सार्वजनिक रूप से उपलब्ध कराते हैं।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर फॉर्मूला डेटासेट, टेक्स80एम का निर्माण करके एचएमईआर क्षेत्र में डेटा की कमी की समस्या को हल करने में योगदान दिया।
बड़े पैमाने पर एचएमईआर मॉडल टेक्सटेलर के विकास के माध्यम से एसओटीए प्रदर्शन प्राप्त करना।
मॉडल, डेटासेट और कोडबेस के प्रकटीकरण के माध्यम से एचएमईआर क्षेत्र में अनुसंधान को प्रोत्साहित करना।
Limitations:
लेटेक्स-आधारित सिंथेटिक डेटासेट के उपयोग के कारण हस्तलिखित डेटा के साथ संभावित डोमेन अंतराल।
टेक्स80एम की डेटा गुणवत्ता का और अधिक सत्यापन आवश्यक है।
यह संभव है कि यह वास्तविक हस्तलिखित सूत्रों की विविधता को पूरी तरह से प्रतिबिंबित न कर पाए।
👍