दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एन्ट्रॉपी-अवेयर स्कोर चयन के माध्यम से वाक् भावना पहचान

Created by
  • Haebom

लेखक

चेनयी चुआ, जुनकाई वोंग, चेंगक्सिन चेन, ज़ियाओक्सिआओ मियाओ

रूपरेखा

यह शोधपत्र वाक्-भावना पहचान के लिए एक बहुविध ढाँचा प्रस्तावित करता है। यह एक Wav2vec2.0-आधारित ध्वनिक मॉडल और एक RoBERTa-XLM-आधारित भाव विश्लेषण मॉडल (व्हिसपर-लार्ज-v3 से प्रतिलेखों का उपयोग करके) को एकीकृत करता है, और एन्ट्रॉपी-आधारित स्कोर चयन के माध्यम से वाक् और पाठ पूर्वानुमान परिणामों को संयोजित करता है। मुख्य पाइपलाइन पूर्वानुमान की विश्वसनीयता संबंधी बाधाओं को दूर करने के लिए, हम एन्ट्रॉपी और वेरेंट्रॉपी थ्रेसहोल्ड पर आधारित एक लेट स्कोर फ्यूजन विधि प्रस्तावित करते हैं। एक भाव मानचित्रण रणनीति जो तीन भाव श्रेणियों को चार लक्षित भाव वर्गों में परिवर्तित करती है, बहुविध पूर्वानुमानों के सुसंगत एकीकरण को सक्षम बनाती है। IEMOCAP और MSP-IMPROV डेटासेट पर प्राप्त परिणाम दर्शाते हैं कि प्रस्तावित विधि मौजूदा एकल-विध प्रणालियों की तुलना में व्यावहारिक और विश्वसनीय सुधार प्रदान करती है।

Takeaways, Limitations

Takeaways:
आवाज और पाठ्य सूचना को प्रभावी ढंग से संयोजित करके आवाज भावना पहचान प्रदर्शन में सुधार की संभावना का सुझाव देना।
विश्वसनीयता बाधाओं पर काबू पाना और एन्ट्रॉपी-आधारित स्कोर चयन के माध्यम से मल्टीमॉडल भविष्यवाणी के लिए एक कुशल एकीकरण रणनीति प्रस्तुत करना।
हम IEMOCAP और MSP-IMPROV डेटासेट पर मौजूदा एकल-मोडल प्रणालियों की तुलना में प्रदर्शन में सुधार प्रदर्शित करते हैं।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन के और सत्यापन की आवश्यकता है। विविध डेटासेट और भाषाओं पर प्रायोगिक परिणामों का अभाव है।
भावना मानचित्रण रणनीति की उपयुक्तता निर्धारित करने के लिए और अधिक विश्लेषण की आवश्यकता है। अन्य भावना वर्गीकरण प्रणालियों पर इसकी प्रयोज्यता की भी जाँच की जानी चाहिए।
कुछ भाग ऐसे हैं जो विशिष्ट मॉडलों (Wav2vec2.0, RoBERTa-XLM, Whisper-large-v3) पर निर्भर करते हैं, इसलिए अन्य मॉडलों के लिए मापनीयता की समीक्षा की जानी चाहिए।
👍