दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डेटा विस्तार के लिए एम्बेडिंग स्पेस में स्पीकर पहचानों का अंतर्वेशन

Created by
  • Haebom

लेखक

तियानची लियू, रुइजी ताओ, क्यूओंगकिओंग वांग, यिडी जियांग, हार्दिक बी. सेलर, के झांग, जिंगरू लिन, हैझोउ ली

रूपरेखा

गहन शिक्षण-आधारित स्पीकर प्रमाणीकरण प्रणालियों की सीमाओं को दूर करने के लिए, जो बड़े, विविध स्पीकर डेटा सेट तक पहुँच पर अत्यधिक निर्भर करती हैं, यह शोधपत्र INSIDE (एम्बेडिंग स्पेस में स्पीकर पहचानों का अंतर्वेशन) प्रस्तावित करता है, जो एक नवीन डेटा संवर्द्धन विधि है जो मौजूदा स्पीकर एम्बेडिंग के बीच अंतर्वेशन करके नए स्पीकर आईडी का संश्लेषण करती है। INSIDE एक पूर्व-प्रशिक्षित स्पीकर एम्बेडिंग स्पेस से निकटवर्ती स्पीकर एम्बेडिंग के युग्मों का चयन करता है और गोलाकार रैखिक अंतर्वेशन का उपयोग करके एक मध्यवर्ती एम्बेडिंग की गणना करता है। इन अंतर्वेशन एम्बेडिंग को एक वाक् संश्लेषण प्रणाली में डाला जाता है ताकि संगत वाक् तरंगरूप उत्पन्न किए जा सकें। परिणामी डेटा को फिर उप-मॉडलों को प्रशिक्षित करने के लिए मूल डेटासेट के साथ संयोजित किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि INSIDE-संवर्धित डेटा से प्रशिक्षित मॉडल, केवल वास्तविक डेटा पर प्रशिक्षित मॉडलों से बेहतर प्रदर्शन करते हैं, और स्पीकर प्रमाणीकरण पर 3.06% से 5.24% तक सापेक्ष प्रदर्शन लाभ प्राप्त करते हैं। लिंग वर्गीकरण भी 13.44% सापेक्ष प्रदर्शन लाभ प्रदर्शित करता है। INSIDE अन्य संवर्द्धन तकनीकों के साथ संगत है, जो इसे मौजूदा प्रशिक्षण पाइपलाइनों में एक लचीला और मापनीय अतिरिक्त बनाता है।

Takeaways, Limitations

Takeaways:
हम एक प्रभावी डेटा संवर्द्धन तकनीक प्रस्तुत करते हैं जो सीमित डेटा के साथ भी गहन शिक्षण-आधारित स्पीकर प्रमाणीकरण और संबंधित कार्यों के प्रदर्शन में सुधार कर सकती है।
यह वक्ता प्रमाणीकरण के अतिरिक्त लिंग वर्गीकरण जैसे अन्य कार्यों के लिए भी प्रयोज्यता प्रदर्शित करता है।
एक लचीली और स्केलेबल विधि जिसे मौजूदा प्रशिक्षण पाइपलाइनों में आसानी से एकीकृत किया जा सकता है।
Limitations:
इंटरपोलेटेड स्पीकर एम्बेडिंग वास्तविक स्पीकर की विशेषताओं को पूरी तरह से प्रतिबिंबित नहीं कर सकती है।
उत्पन्न डेटा की गुणवत्ता वाक् संश्लेषण प्रणाली के प्रदर्शन से प्रभावित हो सकती है।
गोपनीयता संबंधी मुद्दों (जैसे कि डेटा संश्लेषण के दौरान व्यक्तिगत जानकारी लीक होने की संभावना) के संबंध में अतिरिक्त विचार की आवश्यकता हो सकती है।
👍