दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एएसआर प्रदर्शन में गिरावट में ऑडियो चैनलों की भूमिका का खुलासा

Created by
  • Haebom

लेखक

कुआन-तांग हुआंग, ली-वेई चेन, हंग-शिन ली, बर्लिन चेन, सीन-मिन वांग

रूपरेखा

यह शोधपत्र इस समस्या पर विचार करता है कि पूर्व-प्रशिक्षित स्वचालित वाक् पहचान (ASR) मॉडल का प्रदर्शन विभिन्न रिकॉर्डिंग चैनलों से इनपुट ऑडियो के साथ उपयोग किए जाने पर काफ़ी कम हो सकता है। हालाँकि पिछले शोध अक्सर इस घटना को प्रशिक्षण और परीक्षण निकायों के बीच बेमेल के कारण मानते हैं, यह शोधपत्र तर्क देता है कि विभिन्न रिकॉर्डिंग चैनलों के कारण वाक् विशेषताओं में भिन्नताएँ ASR प्रदर्शन को मौलिक रूप से कम कर सकती हैं। इस सीमा को दूर करने के लिए, यह शोधपत्र एक मानकीकरण तकनीक का प्रस्ताव करता है जिसे ASR मॉडल के आंतरिक विशेषता निरूपणों को एक स्वच्छ संदर्भ चैनल से प्राप्त विशेषता निरूपणों के साथ संरेखित करके चैनल विविधताओं के प्रभावों को कम करने के लिए डिज़ाइन किया गया है। प्रस्तावित विधि पहले अनदेखे चैनलों और भाषाओं पर ASR प्रदर्शन में उल्लेखनीय सुधार करती है, और चैनल और भाषा के अंतरों में सामान्यीकरण करने की इसकी क्षमता को प्रदर्शित करती है।

Takeaways, Limitations

Takeaways:
हमने पाया कि विभिन्न रिकॉर्डिंग चैनलों के कारण आवाज की विशेषताओं में भिन्नता, ASR प्रदर्शन में गिरावट का मुख्य कारण है।
चैनल विविधताओं के प्रभावों को कम करने के लिए एक नवीन सामान्यीकरण तकनीक प्रस्तुत की गई है।
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि प्रस्तावित तकनीक विभिन्न चैनलों और भाषाओं में ASR प्रदर्शन में सुधार करती है।
चैनल और भाषा बेमेल मुद्दों को हल करने के लिए एक नया दृष्टिकोण।
Limitations:
प्रस्तावित सामान्यीकरण तकनीक की कम्प्यूटेशनल लागत और वास्तविक समय प्रसंस्करण क्षमता के मूल्यांकन का अभाव।
विभिन्न शोर प्रकारों और रिकॉर्डिंग वातावरणों में सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
एक स्वच्छ संदर्भ चैनल प्राप्त करने में कठिनाई और व्यावहारिक बाधाओं पर विचार करने की आवश्यकता।
👍