[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्पीच-फोरेंसिक्स: व्यापक सिंथेटिक स्पीच डेटासेट स्थापना और विश्लेषण की ओर

Created by
  • Haebom

लेखक

झोउलिन जी, चेनहाओ लिन, हैंग वांग, चाओ शेन

रूपरेखा

विभिन्न सिंथेटिक स्पीच विश्लेषण डेटासेट की सीमाओं को दूर करने के लिए, क्योंकि नकली जानकारी और पहचान की चोरी के बढ़ते जोखिम के कारण वास्तविक और सिंथेटिक स्पीच के बीच अंतर करना लगातार महत्वपूर्ण होता जा रहा है, हम एक स्पीच-फोरेंसिक डेटासेट प्रस्तावित करते हैं जो वास्तविक, सिंथेटिक और आंशिक रूप से नकली स्पीच नमूनों को व्यापक रूप से कवर करता है, जिसमें विभिन्न उच्च-गुणवत्ता वाले एल्गोरिदम द्वारा संश्लेषित कई खंड शामिल हैं। इसके अतिरिक्त, हम एक टेम्पोरल स्पीच लोकलाइज़ेशन नेटवर्क (TEST) प्रस्तावित करते हैं जो जटिल पोस्ट-प्रोसेसिंग के बिना एक साथ प्रामाणिकता सत्यापन, कई नकली खंडों का स्थानीयकरण और सिंथेटिक एल्गोरिदम की पहचान करता है। TEST प्रभावी रूप से LSTM और ट्रांसफॉर्मर को एकीकृत करके मज़बूत टेम्पोरल स्पीच रिप्रेजेंटेशन निकालता है, और मल्टी-स्केल पिरामिड फ़ीचर्स पर सघन पूर्वानुमान का उपयोग करके सिंथेटिक खंडों का अनुमान लगाता है। प्रस्तावित मॉडल उच्चारण स्तर पर 83.55% का औसत mAP और 5.25% का EER, और खंड स्तर पर 1.07% का EER और 92.19% का F1-स्कोर प्राप्त करता है, जो सिंथेटिक स्पीच के व्यापक विश्लेषण के लिए इसकी मज़बूत क्षमता को दर्शाता है।

Takeaways, Limitations

Takeaways:
हम एक नया स्पीच-फोरेंसिक डेटासेट प्रस्तुत करते हैं जिसमें विभिन्न उच्च-गुणवत्ता वाले एल्गोरिदम द्वारा उत्पन्न विभिन्न प्रकार के सिंथेटिक भाषण शामिल हैं।
एक कुशल TEST नेटवर्क का प्रस्ताव करना जो एक साथ प्रामाणिकता सत्यापन, नकली खंड स्थान का पता लगाने और सिंथेटिक एल्गोरिदम पहचान का कार्य करता है।
यह संश्लिष्ट भाषण विश्लेषण के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो उच्च सटीकता (उच्चारण-स्तर MAP 83.55%, EER 5.25%; खंड-स्तर EER 1.07%, F1 92.19%) प्राप्त करता है।
भविष्य में सिंथेटिक आवाज विश्लेषण अनुसंधान और व्यावहारिक अनुप्रयोगों के लिए एक उपयोगी आधार प्रदान करता है।
Limitations:
डेटासेट के आकार और विविधता के बारे में विशिष्ट जानकारी का अभाव (डेटासेट का आकार, विभिन्न संश्लेषण एल्गोरिदम के प्रकार और अनुपात, आदि)
प्रस्तावित मॉडल के सामान्यीकरण प्रदर्शन का अतिरिक्त सत्यापन आवश्यक है (विभिन्न वातावरणों, शोर आदि के प्रति प्रतिरोध)
जटिल वास्तविक दुनिया के भाषण डेटा (जैसे पृष्ठभूमि शोर, ओवरलैपिंग, आदि) पर प्रदर्शन मूल्यांकन का अभाव
👍