दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीआईएनपी: संयुक्त एएसआर-प्रभावी स्पीच डीरिवरबरेशन और ब्लाइंड आरआईआर पहचान के लिए न्यूरल स्पीच प्रायर के साथ वैरिएशनल बायेसियन इनफेरेंस

Created by
  • Haebom

लेखक

पेंगयु वांग, यिंग फैंग, ज़ियाओफ़ेई ली

रूपरेखा

यह शोधपत्र तंत्रिका वाक् पूर्व (वीआईएनपी) के साथ परिवर्तनशील अनुमान (वेरिएशनल इन्फ़रेंस) प्रस्तावित करता है, जो प्रतिध्वनि वाक् से अनिकोइक वाक् और कक्ष आवेग प्रतिक्रिया (आरआईआर) का एक साथ अनुमान लगाने की एक नवीन विधि है। वीआईएनपी समय-आवृत्ति क्षेत्र में एक संभाव्य संकेत मॉडल का निर्माण करता है और अनिकोइक वाक् पूर्व (एन्कोइक स्पीच प्रायर्स) का अनुमान लगाने के लिए तंत्रिका नेटवर्क-आधारित परिवर्तनशील बायेसियन अनुमान (वीबीआई) ढाँचे का उपयोग करता है। पारंपरिक एकल-चैनल प्रतिध्वनि निरस्तीकरण विधियों के विपरीत, वीआईएनपी स्वचालित वाक् पहचान (एएसआर) प्रणालियों के लिए प्रभावी है और अनिकोइक वाक् और आरआईआर के अधिकतम पश्च प्रायिकता (एमएपी) और अधिकतम संभावना (एमएल) अनुमान के माध्यम से तरंगों का अनुमान लगाता है। प्रायोगिक परिणाम मीन ओपिनियन स्कोर (एमओएस) और शब्द त्रुटि दर (डब्ल्यूईआर) में अत्याधुनिक प्रदर्शन, साथ ही 60 डीबी (आरटी60) पर प्रतिध्वनि समय और प्रत्यक्ष-से-प्रतिध्वनि अनुपात (डीआरआर) का अनुमान लगाने में उत्कृष्ट प्रदर्शन प्रदर्शित करते हैं। कोड और ऑडियो नमूने ऑनलाइन उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
परिवर्तनीय बेयस अनुमान और तंत्रिका नेटवर्क-आधारित पूर्व वितरण को संयोजित करके, हम एकल-चैनल प्रतिध्वनि निरस्तीकरण और अंध-दृष्टि आरआईआर पहचान की समस्याओं को प्रभावी ढंग से हल करते हैं।
हमने अत्याधुनिक प्रदर्शन हासिल किया है जो स्वचालित वाक् पहचान प्रणालियों पर सीधे लागू होता है।
इसने RT60 और DRR आकलन में भी उत्कृष्ट प्रदर्शन दिखाया।
हमने पुनरुत्पादन क्षमता बढ़ाने के लिए कोड और ऑडियो नमूने सार्वजनिक कर दिए हैं।
Limitations:
इस पेपर में Limitations या भविष्य के अनुसंधान निर्देशों के विशिष्ट संदर्भों का अभाव है।
विशिष्ट वातावरण या भाषण डेटा के लिए प्रदर्शन की सामान्यता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
तंत्रिका नेटवर्क वास्तुकला और प्रयुक्त हाइपरपैरामीटर्स का विस्तृत विवरण उपलब्ध नहीं हो सकता है।
👍