दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

PARCO: विपरीत इकाई असंबद्धता के माध्यम से ध्वनि-संवर्धित मजबूत प्रासंगिक ASR

Created by
  • Haebom

लेखक

जियाजुन हे, नाओकी सवादा, कोइची मियाज़ाकी, तोमोकी टोडा

रूपरेखा

यह शोधपत्र स्वचालित वाक् पहचान (ASR) प्रणालियों के सामने आने वाली चुनौतियों का समाधान करने के लिए कंट्रास्टिव एंटिटी डिसएम्बिग्यूएशन (PARCO) के माध्यम से ध्वनि-संवर्धित मजबूत प्रासंगिक ASR का प्रस्ताव करता है, जो डोमेन-विशिष्ट नामित संस्थाओं, विशेष रूप से समानार्थी शब्दों के साथ संघर्ष करती हैं। PARCO, वाक् विभेदन में सुधार, पूर्ण इकाई पहचान सुनिश्चित करने और अनिश्चितता की स्थिति में गलत सकारात्मक परिणामों को कम करने के लिए ध्वनि-जागरूक एन्कोडिंग, कंट्रास्टिव एंटिटी डिसएम्बिग्यूएशन, एंटिटी-स्तरीय पर्यवेक्षण और पदानुक्रमित एंटिटी फ़िल्टरिंग को एकीकृत करता है। यह 1,000 डिस्ट्रैक्टर्स के अंतर्गत चीनी AISHELL-1 डेटासेट पर 4.22% की वर्ण त्रुटि दर (CER) और अंग्रेजी DATA2 डेटासेट पर 11.14% की शब्द त्रुटि दर (WER) प्राप्त करता है, जो मौजूदा विधियों से काफी बेहतर प्रदर्शन करता है। यह THCHS-30 और LibriSpeech जैसे डोमेन-विशिष्ट डेटासेट पर भी मजबूत प्रदर्शन सुधार प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नया एएसआर मॉडल प्रस्तुत करते हैं जो ध्वनि-स्तर की जानकारी का उपयोग करके समानार्थी समस्या को प्रभावी ढंग से हल करता है।
हमने कंट्रास्टिव लर्निंग और पदानुक्रमित फ़िल्टरिंग के माध्यम से वस्तु पहचान की सटीकता और स्थिरता में सुधार किया।
हमने सिद्ध कर दिया है कि हमारी विधि विभिन्न डेटासेटों पर मौजूदा विधियों से बेहतर प्रदर्शन करती है।
Limitations:
प्रस्तावित मॉडल की कम्प्यूटेशनल जटिलता और संसाधन खपत के विश्लेषण का अभाव है।
विभिन्न भाषाओं और डोमेन में सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
वास्तविक दुनिया के वातावरण में मजबूती का और अधिक मूल्यांकन आवश्यक है।
👍