दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

समता-जागरूक बाइट-पेयर एन्कोडिंग: टोकनीकरण में क्रॉस-भाषाई निष्पक्षता में सुधार

Created by
  • Haebom

लेखक

नेगर फ़ोराउटन, क्लारा मिस्टर, देबजीत पॉल, जोएल निकलॉस, सिना अहमदी, एंटोनी बॉसेलुत, रिको सेनरिच

रूपरेखा

यह शोधपत्र टोकेनाइज़ेशन की असंतुलन समस्या के समाधान हेतु पैरिटी-अवेयर बाइट पेयर एनकोडिंग (BPE) एल्गोरिथम प्रस्तुत करता है, जो प्राकृतिक भाषा प्रसंस्करण (NLP) प्रक्रिया में पहला और अक्सर अनदेखा किया जाने वाला चरण है। मौजूदा आवृत्ति-आधारित टोकेनाइज़ेशन एल्गोरिथम प्रशिक्षण डेटा में प्रमुख भाषाओं को प्राथमिकता देते हैं, जिसके परिणामस्वरूप टोकेनाइज़ेशन अत्यधिक लंबा, रूपात्मक रूप से अवास्तविक होता है, या यहाँ तक कि कम संसाधन वाली भाषाओं के लिए बड़ी संख्या में प्लेसहोल्डर भी शामिल करता है। यह अंततः विविध भाषाई पृष्ठभूमि वाले उपयोगकर्ताओं के बीच कम्प्यूटेशनल और वित्तीय असमानताओं को बढ़ाता है। पैरिटी-अवेयर BPE प्रत्येक विलय चरण में सबसे कम संपीड़न अनुपात वाली भाषा के संपीड़न लाभ को अधिकतम करता है, जिससे थोड़े से समग्र संपीड़न अनुपात की कीमत पर भाषाओं के बीच संतुलन प्राप्त होता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि पैरिटी-अवेयर BPE समग्र संपीड़न अनुपात पर न्यूनतम प्रभाव डालते हुए और डाउनस्ट्रीम कार्यों में भाषा मॉडल के प्रदर्शन को महत्वपूर्ण रूप से कम करते हुए भाषाओं में टोकन गणना के संतुलन को बेहतर बनाता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन बीपीई एल्गोरिदम प्रस्तुत करते हैं जो संसाधन-विहीन भाषाओं के लिए टोकनीकरण असंतुलन समस्या का समाधान करता है।
यह विभिन्न भाषाओं में टोकन गणना के संतुलन में सुधार करके कम्प्यूटेशनल और वित्तीय असमानताओं को कम करने में योगदान देता है।
समग्र संपीड़न अनुपात और डाउनस्ट्रीम कार्यों के भाषा मॉडल प्रदर्शन पर प्रभाव न्यूनतम है।
Limitations:
समता-जागरूक बीपीई का प्रदर्शन लाभ विशिष्ट भाषा या कार्य के आधार पर भिन्न हो सकता है।
विभिन्न टोकेनाइजेशन एल्गोरिदम के साथ आगे तुलनात्मक विश्लेषण की आवश्यकता है।
प्रयोग में प्रयुक्त भाषा और डेटासेट की सीमाओं के कारण, सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
👍