यह पत्र भाषा मॉडल के प्रदर्शन पर मोर्फिम-संरेखित टोकनाइज़र के प्रभाव की जांच करता है, विशेष रूप से जटिल मोर्फिम वाली भाषाओं में। हम तीन भाषाओं के लिए टोकनाइज़र प्रशिक्षण से लेकर फाइन-ट्यूनिंग और उप-कार्य मूल्यांकन तक एक व्यापक मूल्यांकन करते हैं: तेलुगु (एग्लूटिनेटिव), हिंदी (मुख्य रूप से एग्लूटिनेटिव, आंशिक रूप से एग्लूटिनेटिव), और अंग्रेजी (एग्लूटिनेटिव)। हम दो प्रमुख कारकों पर ध्यान केंद्रित करते हैं: मोर्फिम संरेखण और टोकनाइज़र एल्गोरिथ्म (BPE बनाम यूनिग्राम)। तेलुगु के लिए, हम मोर्फिम खंडों के एक नए बनाए गए, मैन्युअल रूप से लेबल किए गए डेटासेट का विश्लेषण करते हैं। हमारे प्रयोगात्मक परिणाम बताते हैं कि मोर्फिम संरेखण सकारात्मक रूप से वाक्य-रचना-आधारित कार्यों (भाषण के भाग टैगिंग, नामित इकाई पहचान और आश्रित पार्सिंग) के प्रदर्शन के साथ सहसंबंधित इसके विपरीत, सीटीसी और रेनी एन्ट्रॉपी जैसे आंतरिक मेट्रिक्स उपकार्य प्रदर्शन के साथ सहसंबंधित नहीं होते हैं।