दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वाइबवॉयस तकनीकी रिपोर्ट

Created by
  • Haebom

लेखक

ज़िलियांग पेंग, जियानवेई यू, वेनहुई वांग, याओयाओ चांग, ​​युताओ सन, ली डोंग, यी झू, वेइजियांग जू, हैंगबो बाओ, ज़ेहुआ वांग, शाओहान हुआंग, यान ज़िया, फुरु वेई

रूपरेखा

वाइबवॉयस एक नया मॉडल है जो नेक्स्ट-टोकन डिफ्यूज़न का उपयोग करके कई स्पीकरों से लंबी अवधि के भाषण को संश्लेषित करता है। यह नेक्स्ट-टोकन डिफ्यूज़न का लाभ उठाता है, जो एक एकीकृत विधि है जो निरंतर डेटा को मॉडल करने के लिए स्वचालित रूप से अव्यक्त वेक्टर उत्पन्न करती है। एक नए निरंतर भाषण टोकनाइज़र को पेश करके, जो मौजूदा एनकोडेक मॉडलों की तुलना में 80 गुना बेहतर डेटा संपीड़न प्रदान करता है, वाइबवॉयस ऑडियो फ़िडेलिटी बनाए रखते हुए लंबी अवधि के अनुक्रम प्रसंस्करण की कम्प्यूटेशनल दक्षता में उल्लेखनीय सुधार करता है। परिणामस्वरूप, वाइबवॉयस अधिकतम चार स्पीकरों से लंबी अवधि के भाषण (64K संदर्भ विंडो लंबाई) को संश्लेषित कर सकता है, जिससे एक यथार्थवादी संवादात्मक वातावरण प्राप्त होता है जो ओपन-सोर्स और व्यावसायिक वार्तालाप मॉडलों से भी बेहतर है।

Takeaways, Limitations

Takeaways:
हम निम्नलिखित टोकन प्रसार के आधार पर एक कुशल दीर्घकालिक बहु-वक्ता भाषण संश्लेषण मॉडल प्रस्तुत करते हैं।
मौजूदा मॉडलों की तुलना में 80 गुना बेहतर डेटा संपीड़न अनुपात के साथ एक नए निरंतर भाषण टोकेनाइजर का विकास।
90 मिनट तक की उच्च गुणवत्ता वाली बहु-वार्ताकार आवाज संश्लेषण।
ओपन सोर्स और वाणिज्यिक मॉडल की तुलना में बेहतर संवादात्मक माहौल को लागू करना।
Limitations:
इस शोधपत्र में विशिष्ट प्रदर्शन मूल्यांकन मीट्रिक्स (जैसे, ध्वनि की गुणवत्ता, स्वाभाविकता) प्रस्तुत नहीं किए गए हैं।
64K संदर्भ विंडो लंबाई सीमा के कारण संश्लेषण समय में संभावित सीमाएं।
4 से अधिक वक्ताओं के प्रदर्शन की पुष्टि नहीं की गई है।
मॉडल के प्रशिक्षण डेटा और विशिष्ट आर्किटेक्चर के बारे में जानकारी का अभाव।
👍