दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम-केंद्रित भाषण निर्माण के लिए एक अच्छा स्पीच टोकनाइज़र क्या बनाता है? एक व्यवस्थित अध्ययन

Created by
  • Haebom

लेखक

ज़ियाओरान फैन, झिचाओ सन, यांगफ़ान गाओ, जिंगफ़ेई ज़िओंग, हैंग यान, यिफ़ेई काओ, जियाजुन सन, शुओ ली, ज़ीहाओ झांग, ज़ीहेंग शी, युहाओ झोउ, सेन्जी जिन, चांगहाओ जियांग, जुन्जी ये, मिंग झांग, रुई झेंग, झेनहुआ हान, यूंके झांग, डेमी यान, शाओकांग डोंग, ताओ जी, ताओ गुई, क्यूई झांग, जुआनजिंग हुआंग

रूपरेखा

यह पत्र एक मौखिक भाषा मॉडल (SLM) में स्पीच टोकनाइज़र डिज़ाइन की भूमिका की व्यवस्थित रूप से जाँच करता है और स्पीच व टेक्स्ट के बीच प्रभावी क्रॉस-मॉडल संरेखण और उच्च-गुणवत्ता वाले स्पीच जेनरेशन के लिए सुधारों का प्रस्ताव करता है। LLM-केंद्रित SLM में स्पीच हेड और स्पीकर मॉडलिंग को जोड़कर और संयुग्मित, अर्ध-संयुग्मित और पूरी तरह से असंयुग्मित स्पीच टोकनाइज़र की तुलना और विश्लेषण करके, हम पाते हैं कि असंयुग्मित टोकनाइज़ेशन संरेखण और संश्लेषण गुणवत्ता में उल्लेखनीय रूप से सुधार करता है। इसके अलावा, स्पीच और टेक्स्ट के बीच सूचना घनत्व बेमेल को दूर करने के लिए, हम मल्टी-टोकन प्रेडिक्शन (MTP) पेश करते हैं, जो डिकोडिंग गति को 12 गुना तक बेहतर बनाता है और शब्द त्रुटि दर को 6.07% से घटाकर 3.01% कर देता है। अंत में, हम एक स्पीकर-अवेयर जेनरेशन प्रतिमान का प्रस्ताव करते हैं

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि एक गैर-बाध्यकारी भाषण टोकेनाइजर एसएलएम के भाषण-से-पाठ संरेखण और संश्लेषण गुणवत्ता में सुधार करने में प्रभावी है।
एसएलएम की डिकोडिंग गति में उल्लेखनीय सुधार होता है और मल्टी-टोकन प्रेडिक्शन (एमटीपी) के माध्यम से शब्द त्रुटि दर कम हो जाती है।
वक्ता पहचान सृजन प्रतिमानों और रोलट्रिवियाक्यूए बेंचमार्क के माध्यम से ज्ञान समझ और वक्ता स्थिरता में सुधार करना।
Limitations:
रोलट्रिवियाक्यूए बेंचमार्क के पैमाने और विविधता का और अधिक सत्यापन आवश्यक है।
अन्य एसएलएम आर्किटेक्चर और डेटासेट पर प्रस्तावित विधि का सामान्यीकरण प्रदर्शन मूल्यांकन आवश्यक है।
एमटीपी की कम्प्यूटेशनल जटिलता और मेमोरी उपयोग का आगे विश्लेषण आवश्यक है।
👍