दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वोकोडर-प्रोजेक्टेड फ़ीचर डिस्क्रिमिनेटर

Created by
  • Haebom

लेखक

ताकुहिरो कानेको, हिरोकाज़ु कामेओका, कोऊ तनाका, युतो कोंडो

रूपरेखा

यह शोधपत्र उन मौजूदा तरीकों की सीमाओं पर प्रकाश डालता है जो वाक् संश्लेषण (TTS) और ध्वनि रूपांतरण (VC) में उच्च-गुणवत्ता वाले वाक् संकेत उत्पन्न करने के लिए मेल स्पेक्ट्रोग्राम जैसे ध्वनिक विशेषताओं का उपयोग करते हैं। मौजूदा तरीके ध्वनिक विशेषताओं को वाक् संकेतों में बदलने और समय क्षेत्र में प्रतिकूल प्रशिक्षण लागू करने के लिए एक वोकोडर का उपयोग करते हैं, लेकिन वाक् संकेतों को अपसैंपलिंग करने में महत्वपूर्ण समय और मेमोरी ओवरहेड होता है। इस समस्या के समाधान के लिए, हम एक वोकोडर प्रोजेक्शन फ़ीचर डिस्क्रिमिनेटर (VPFD) प्रस्तावित करते हैं जो वोकोडर विशेषताओं का उपयोग करता है। एक पूर्व-प्रशिक्षित, निश्चित वोकोडर फ़ीचर एक्सट्रैक्टर और एक एकल अपसैंपलिंग चरण का उपयोग करके, हम प्रदर्शित करते हैं कि प्रसार-आधारित VC आसवन प्रयोगों के माध्यम से, VPFD ​​​​वाक् डिस्क्रिमिनेटर के बराबर VC प्रदर्शन प्राप्त करता है, जबकि प्रशिक्षण समय और मेमोरी खपत क्रमशः 9.6x और 11.4x कम करता है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि वोकोडर सुविधाओं का उपयोग करके प्रतिकूल प्रशिक्षण, वाक् संश्लेषण और ध्वनि रूपांतरण के प्रशिक्षण समय और मेमोरी खपत को काफी कम कर सकता है।
हम पूर्व-प्रशिक्षित वोकोडर्स का लाभ उठाकर कुशल भाषण उत्पादन मॉडल बनाने की संभावना प्रस्तुत करते हैं।
वोकोडर प्रोजेक्शन फीचर डिस्क्रिमिनेटर (वीपीएफडी) की प्रभावशीलता का प्रायोगिक सत्यापन, जो ध्वनि डिस्क्रिमिनेटर के समान प्रदर्शन प्रदर्शित करता है।
Limitations:
प्रस्तावित विधि का प्रदर्शन कुछ प्रसार-आधारित वी.सी. आसवन सेटिंग्स तक सीमित हो सकता है।
अन्य वाक् संश्लेषण और ध्वनि रूपांतरण मॉडल या डेटासेट के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
यह पूर्व प्रशिक्षित वोकोडर के प्रदर्शन पर निर्भर हो सकता है।
👍