दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ध्वनिक और शारीरिक-संचालन माइक्रोफ़ोन फ्रेमवर्क के लिए मोडैलिटी-विशिष्ट वाक् संवर्द्धन और शोर-अनुकूली संलयन

Created by
  • Haebom

लेखक

युनसिक किम, यूनयंग चुंग

रूपरेखा

यह शोधपत्र एक बहुविध ढाँचे का प्रस्ताव करता है जो शरीर-संचालित माइक्रोफ़ोन संकेतों (BMS) और ध्वनिक माइक्रोफ़ोन संकेतों (AMS) को जोड़ता है। BMS शोर के प्रति मज़बूत है, लेकिन उच्च-आवृत्ति सूचना के ह्रास से ग्रस्त है, जबकि AMS उच्च-आवृत्ति सूचना से समृद्ध है, लेकिन शोर के प्रति संवेदनशील है। यह अध्ययन दो नेटवर्कों का उपयोग करके इन कमियों को दूर करता है: एक मानचित्रण-आधारित मॉडल जो BMS को बढ़ाता है और एक मास्किंग-आधारित मॉडल जो AMS से शोर को हटाता है। दोनों मॉडलों को एक गतिशील संलयन तंत्र के माध्यम से एकीकृत किया गया है जो स्थानीय शोर स्थितियों के अनुकूल होता है, और प्रत्येक साधन की शक्तियों का इष्टतम लाभ उठाता है। TAPS डेटासेट में जोड़े गए DNS-2023 शोर क्लिप सहित वस्तुनिष्ठ वाक् गुणवत्ता मेट्रिक्स का उपयोग करके मूल्यांकन, विभिन्न शोर वातावरणों में एकल-विध दृष्टिकोणों की तुलना में बेहतर प्रदर्शन प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन मल्टीमॉडल ढांचा प्रस्तुत करते हैं जो शरीर-संवाहक और ध्वनिक माइक्रोफोन के लाभों को एक साथ मिलाकर शोर रद्दीकरण और उच्च आवृत्ति सूचना बहाली प्राप्त करता है।
मैपिंग-आधारित और मास्किंग-आधारित नेटवर्कों के प्रभावी उपयोग से पारंपरिक सरल फीचर संयोजन विधियों की तुलना में बेहतर प्रदर्शन प्राप्त होता है।
गतिशील संलयन तंत्र के माध्यम से विभिन्न शोर वातावरणों के लिए अनुकूलन क्षमता में वृद्धि।
प्रस्तावित विधि की श्रेष्ठता वस्तुनिष्ठ आवाज गुणवत्ता मूल्यांकन परिणामों के माध्यम से सत्यापित की जाती है।
Limitations:
उपयोग किए गए डेटासेट (TAPS + DNS-2023) के सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
वास्तविक दुनिया के वातावरण में प्रदर्शन मूल्यांकन और अतिरिक्त शोर प्रकारों के विरुद्ध मजबूती मूल्यांकन की आवश्यकता है।
मॉडल की जटिलता और कम्प्यूटेशनल लागत पर विचार किया जाना आवश्यक है।
👍