यह शोधपत्र बहुविधीय वृहत्-स्तरीय भाषा मॉडल (एमएलएलएम) में वाक् और संगीत टोकनीकरण के महत्व पर प्रकाश डालता है और मौजूदा शोध की कमियों की ओर इशारा करता है। शोधपत्र में बताया गया है कि मौजूदा शोध में अर्थगत और ध्वनिक टोकनों की पर्याप्त परिभाषाओं का अभाव है, और कोडेक मूल्यांकन विशिष्ट डोमेन या कार्यों (जैसे, पुनर्निर्माण या स्वचालित वाक् पहचान) के प्रति पक्षपाती हैं, जिससे निष्पक्ष और व्यापक तुलना करना मुश्किल हो जाता है। इसलिए, यह शोधपत्र अर्थगत और ध्वनिक टोकनों की उपयुक्त परिभाषाएँ और चार आयामों में कोडेक प्रदर्शन का मूल्यांकन करने के लिए एक व्यवस्थित मूल्यांकन ढाँचा प्रस्तावित करता है: ध्वनिक पुनर्निर्माण मेट्रिक्स, कोडबुक इंडेक्स स्थिरता, डिकोडर-विशिष्ट ट्रांसफॉर्मर पेरप्लेक्सिटी, और उप-कार्य प्रदर्शन। प्रायोगिक परिणाम प्रस्तावित परिभाषाओं की वैधता और पुनर्निर्माण मेट्रिक्स, कोडबुक आईडी स्थिरता, उप-कार्य प्रदर्शन और पेरप्लेक्सिटी के बीच सहसंबंधों को प्रदर्शित करते हैं।