यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
वाइबवॉयस एक नया मॉडल है जो नेक्स्ट-टोकन डिफ्यूज़न का उपयोग करके कई स्पीकरों से लंबी अवधि के भाषण को संश्लेषित करता है। यह नेक्स्ट-टोकन डिफ्यूज़न का लाभ उठाता है, जो एक एकीकृत विधि है जो निरंतर डेटा को मॉडल करने के लिए स्वचालित रूप से अव्यक्त वेक्टर उत्पन्न करती है। एक नए निरंतर भाषण टोकनाइज़र को पेश करके, जो मौजूदा एनकोडेक मॉडलों की तुलना में 80 गुना बेहतर डेटा संपीड़न प्रदान करता है, वाइबवॉयस ऑडियो फ़िडेलिटी बनाए रखते हुए लंबी अवधि के अनुक्रम प्रसंस्करण की कम्प्यूटेशनल दक्षता में उल्लेखनीय सुधार करता है। परिणामस्वरूप, वाइबवॉयस अधिकतम चार स्पीकरों से लंबी अवधि के भाषण (64K संदर्भ विंडो लंबाई) को संश्लेषित कर सकता है, जिससे एक यथार्थवादी संवादात्मक वातावरण प्राप्त होता है जो ओपन-सोर्स और व्यावसायिक वार्तालाप मॉडलों से भी बेहतर है।
Takeaways, Limitations
•
Takeaways:
◦
हम निम्नलिखित टोकन प्रसार के आधार पर एक कुशल दीर्घकालिक बहु-वक्ता भाषण संश्लेषण मॉडल प्रस्तुत करते हैं।
◦
मौजूदा मॉडलों की तुलना में 80 गुना बेहतर डेटा संपीड़न अनुपात के साथ एक नए निरंतर भाषण टोकेनाइजर का विकास।
◦
90 मिनट तक की उच्च गुणवत्ता वाली बहु-वार्ताकार आवाज संश्लेषण।
◦
ओपन सोर्स और वाणिज्यिक मॉडल की तुलना में बेहतर संवादात्मक माहौल को लागू करना।
•
Limitations:
◦
इस शोधपत्र में विशिष्ट प्रदर्शन मूल्यांकन मीट्रिक्स (जैसे, ध्वनि की गुणवत्ता, स्वाभाविकता) प्रस्तुत नहीं किए गए हैं।
◦
64K संदर्भ विंडो लंबाई सीमा के कारण संश्लेषण समय में संभावित सीमाएं।
◦
4 से अधिक वक्ताओं के प्रदर्शन की पुष्टि नहीं की गई है।
◦
मॉडल के प्रशिक्षण डेटा और विशिष्ट आर्किटेक्चर के बारे में जानकारी का अभाव।