यह शोधपत्र टोकेनाइज़ेशन की असंतुलन समस्या के समाधान हेतु पैरिटी-अवेयर बाइट पेयर एनकोडिंग (BPE) एल्गोरिथम प्रस्तुत करता है, जो प्राकृतिक भाषा प्रसंस्करण (NLP) प्रक्रिया में पहला और अक्सर अनदेखा किया जाने वाला चरण है। मौजूदा आवृत्ति-आधारित टोकेनाइज़ेशन एल्गोरिथम प्रशिक्षण डेटा में प्रमुख भाषाओं को प्राथमिकता देते हैं, जिसके परिणामस्वरूप टोकेनाइज़ेशन अत्यधिक लंबा, रूपात्मक रूप से अवास्तविक होता है, या यहाँ तक कि कम संसाधन वाली भाषाओं के लिए बड़ी संख्या में प्लेसहोल्डर भी शामिल करता है। यह अंततः विविध भाषाई पृष्ठभूमि वाले उपयोगकर्ताओं के बीच कम्प्यूटेशनल और वित्तीय असमानताओं को बढ़ाता है। पैरिटी-अवेयर BPE प्रत्येक विलय चरण में सबसे कम संपीड़न अनुपात वाली भाषा के संपीड़न लाभ को अधिकतम करता है, जिससे थोड़े से समग्र संपीड़न अनुपात की कीमत पर भाषाओं के बीच संतुलन प्राप्त होता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि पैरिटी-अवेयर BPE समग्र संपीड़न अनुपात पर न्यूनतम प्रभाव डालते हुए और डाउनस्ट्रीम कार्यों में भाषा मॉडल के प्रदर्शन को महत्वपूर्ण रूप से कम करते हुए भाषाओं में टोकन गणना के संतुलन को बेहतर बनाता है।