हस्तलिखित गणितीय अभिव्यक्ति पहचान (HMER) के क्षेत्र में डेटा की कमी को दूर करने के लिए, यह शोधपत्र सीमित हस्तलिखित समीकरणों के साथ बड़े पैमाने के LaTeX रेंडर किए गए समीकरणों को एकीकृत करने की एक नवीन विधि प्रस्तावित करता है। हम बड़े पैमाने पर LaTeX समीकरण निर्माण के लिए एक स्केलेबल डेटा इंजन विकसित करते हैं और Tex80M का निर्माण करते हैं, जो अब तक का सबसे बड़ा समीकरण डेटासेट है, जिसमें 80 मिलियन से अधिक उच्च-गुणवत्ता वाले प्रशिक्षण उदाहरण शामिल हैं। इसके आधार पर, हम Tex80M और अपेक्षाकृत छोटे HME डेटासेट के साथ हाइब्रिड प्रशिक्षण द्वारा, पहला बड़े पैमाने का HMER मॉडल, TexTeller प्रस्तावित करते हैं। TexTeller लगभग सभी बेंचमार्क पर अत्याधुनिक (SOTA) प्रदर्शन प्राप्त करता है। हम आगे के शोध में सहायता के लिए मॉडल, डेटासेट और कोडबेस को सार्वजनिक रूप से उपलब्ध कराते हैं।