दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

समृद्ध आकृति विज्ञान के लिए टोकनीकरण पर पुनर्विचार: बीपीई और आकृति विज्ञान संरेखण पर यूनिग्राम का प्रभुत्व

Created by
  • Haebom

लेखक

साकेत रेड्डी वेमुला, दीप्ति मिश्रा शर्मा, परमेश्वरी कृष्णमूर्ति

रूपरेखा

यह पत्र भाषा मॉडल के प्रदर्शन पर मोर्फिम-संरेखित टोकनाइज़र के प्रभाव की जांच करता है, विशेष रूप से जटिल मोर्फिम वाली भाषाओं में। हम तीन भाषाओं के लिए टोकनाइज़र प्रशिक्षण से लेकर फाइन-ट्यूनिंग और उप-कार्य मूल्यांकन तक एक व्यापक मूल्यांकन करते हैं: तेलुगु (एग्लूटिनेटिव), हिंदी (मुख्य रूप से एग्लूटिनेटिव, आंशिक रूप से एग्लूटिनेटिव), और अंग्रेजी (एग्लूटिनेटिव)। हम दो प्रमुख कारकों पर ध्यान केंद्रित करते हैं: मोर्फिम संरेखण और टोकनाइज़र एल्गोरिथ्म (BPE बनाम यूनिग्राम)। तेलुगु के लिए, हम मोर्फिम खंडों के एक नए बनाए गए, मैन्युअल रूप से लेबल किए गए डेटासेट का विश्लेषण करते हैं। हमारे प्रयोगात्मक परिणाम बताते हैं कि मोर्फिम संरेखण सकारात्मक रूप से वाक्य-रचना-आधारित कार्यों (भाषण के भाग टैगिंग, नामित इकाई पहचान और आश्रित पार्सिंग) के प्रदर्शन के साथ सहसंबंधित इसके विपरीत, सीटीसी और रेनी एन्ट्रॉपी जैसे आंतरिक मेट्रिक्स उपकार्य प्रदर्शन के साथ सहसंबंधित नहीं होते हैं।

Takeaways, Limitations

Takeaways:
हम दिखाते हैं कि रूपात्मक संरेखण का भाषा मॉडल प्रदर्शन पर सकारात्मक प्रभाव पड़ता है, लेकिन प्रभाव सीमित है।
हम दिखाते हैं कि टोकेनाइजर एल्गोरिथम का चुनाव मॉर्फोलॉजिकल अलाइनमेंट की तुलना में प्रदर्शन पर अधिक प्रभाव डालता है।
हम प्रदर्शित करते हैं कि एक हाइब्रिड दृष्टिकोण जो रूपात्मक जानकारी को बीपीई-आधारित टोकनाइज़र में एकीकृत करता है, प्रदर्शन में सुधार करने में प्रभावी है।
आंतरिक मेट्रिक्स (सीटीसी, रेनी एन्ट्रॉपी) सुझाव देते हैं कि वे उपकार्य प्रदर्शन की भविष्यवाणी करने के लिए उपयुक्त नहीं हैं।
Limitations:
अध्ययन की लक्षित भाषाएँ सीमित हैं (तेलुगु, हिंदी और अंग्रेज़ी)। और अधिक विविध भाषाओं में आगे शोध की आवश्यकता है।
रूपात्मक संरेखण को परिभाषित करने और मापने के लिए स्पष्ट मानकों का अभाव हो सकता है।
टोकेनाइजर एल्गोरिदम (जैसे डेटा आकार, मॉडल आर्किटेक्चर) में अंतर के अलावा अन्य कारकों पर विचार की कमी हो सकती है।
👍