दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कंटेंट-अवेयर टिम्बर एन्सेम्बल और कंडीशनल फ्लो मैचिंग के माध्यम से जीरो-शॉट वॉयस रूपांतरण

Created by
  • Haebom

लेखक

यू पैन, युगुआंग यांग, जिक्सुन याओ, लेई मा, जियानजुन झाओ

रूपरेखा

यह शोधपत्र शून्य-शॉट ध्वनि रूपांतरण (VC) में वक्ता समानता और स्वाभाविकता सुनिश्चित करने की चुनौतियों का समाधान करने के लिए कम्प्यूटेशनल ट्रांसफ़ॉर्मेशन एफिशिएंसी मॉडल (CTEFM-VC) ढाँचे का प्रस्ताव करता है। CTEF-VC, वाणी को विषयवस्तु और लय में विघटित करता है और एक सशर्त प्रवाह मिलान मॉडल का उपयोग करके स्रोत वाणी के Mel स्पेक्ट्रोग्राम का पुनर्निर्माण करता है। विशेष रूप से, यह उत्पन्न वाणी की स्वाभाविकता और लय मॉडलिंग प्रदर्शन को बढ़ाने के लिए संदर्भ-जागरूक लय समूह मॉडलिंग और एक संरचनात्मक समानता-आधारित लय हानि फलन प्रस्तुत करता है। एक क्रॉस-अटेंशन मॉड्यूल जो विभिन्न वक्ता सत्यापन एम्बेडिंग को अनुकूली रूप से एकीकृत करता है, स्रोत विषयवस्तु और लक्षित लय तत्वों का प्रभावी ढंग से लाभ उठाता है। प्रायोगिक परिणाम दर्शाते हैं कि CTEFM-VC, मौजूदा अत्याधुनिक शून्य-शॉट VC प्रणालियों से उल्लेखनीय रूप से बेहतर प्रदर्शन करता है, और वक्ता समानता, स्वाभाविकता और बोधगम्यता में अत्याधुनिक प्रदर्शन प्राप्त करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन फ्रेमवर्क, सीटीईएफएम-वीसी प्रस्तुत करते हैं, जो शून्य-शॉट भाषण रूपांतरण में वक्ता समानता और स्वाभाविकता में महत्वपूर्ण सुधार करता है।
संदर्भ-जागरूक टिम्बर एन्सेम्बल मॉडलिंग और संरचनात्मक समानता-आधारित टिम्बर हानि फ़ंक्शन के माध्यम से प्रदर्शन में वृद्धि।
विविध स्पीकर सत्यापन एम्बेडिंग का प्रभावी उपयोग।
मौजूदा अत्याधुनिक मॉडलों की तुलना में बेहतर प्रदर्शन।
Limitations:
इस पेपर में Limitations या भविष्य के अनुसंधान निर्देशों के विशिष्ट संदर्भों का अभाव है।
प्रयोगात्मक सेटअप और डेटासेट का विस्तृत विवरण आवश्यक है।
कुछ भाषाओं या ध्वनि डेटा के प्रति पूर्वाग्रह हो सकता है।
👍