[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वोक्सट्रल

Created by
  • Haebom

लेखक

अलेक्जेंडर एच. लियू, एंडी एहरनबर्ग, एंडी लो, क्लेमेंट डेनोक्स, कोरेंटिन बर्रेउ, गुइल्यूम लाम्पल, जीन-मालो डेलिगनॉन, ख्याति राघवी चंदू, पैट्रिक वॉन प्लैटन, पवनकुमार रेड्डी मुद्दिरेड्डी, संचित गांधी, सोहम घोष, सृजन मिश्रा, थॉमस फाउबर्ट, अभिनव रस्तोगी, एडम यांग, अल्बर्ट क्यू. जियांग, एलेक्जेंडर सबलेरोल्स, एम एली एच. एलीउ, एम एली मार्टिन, अनमोल अग्रवाल, एंटोनी रॉक्स, आर्थर डार्सेट, आर्थर मेन्श, बैप्टिस्ट बाउट, बैप्टिस्ट रोजी एरे, बौडोइन डी मोनिकाल्ट, क्रिस बैमफोर्ड, क्रिश्चियन वालेंवेन, क्रिस्टोफ रेनॉडिन, क्लेमेंस लानफ्रैंची, डेरियस डाबर्ट, देवेंद्र सिंह चपलोत, डेवोन मिजेले, डिएगो डी लास कैसास, इलियट चाने-साने, एमिलियन फुगियर, एम्मा बौ हन्ना, गैब्रिएल बेराडा, गौथियर डेलर्स, गॉथियर गुइनेट, जॉर्जी नोविकोव, गुइल्यूम मार्टिन, हिमांशु जाजू, जान लुडज़ीजेवस्की, जेसन रूट, जीन-हैड्रियन चैब्रान, जेसिका चुडनोव्स्की, जोआचिम स्टुडनिया, जोएप बार्मेंटलो, जोनास अमर, जोसेलिन सोमरविले रॉबर्ट्स, जूलियन डेनिस, करण सक्सेना, कर्मेश यादव, कार्तिक खंडेलवाल, कुश जैन, लेलियो रेनार्ड लावौड, लियोनार्ड ब्लियर, लिंग्ज़िआओ झाओ, लुइस मार्टिन, ल्यूसिल सौल्नियर, लुयू गाओ, मैरी पेलैट, मैथिल्डे गुइलौमिन, मैथिस फेलार्डोस, मैथ्यू डिनोट, मैक्सिम डैरिन, मैक्सिमिलियन ऑगस्टिन, मिका एल सेज़नेक, नेहा गुप्ता, निखिल रघुरामन, ओलिवियर डचेन, पेट्रीसिया वांग, पैट्रिक सैफर, पॉल जैकब, पॉल वामबर्ग, पाउला कुरीलोविज़, फिलोमाइन चाग्निओट, पियरे स्टॉक, प्रवेश अग्रवाल, रेमी डेलाकोर्ट, रोमेन सॉवेस्ट्रे, रोमन सोलेत्स्की, सागर वेज़, संदीप सुब्रमण्यन, सौरभ गर्ग, शाश्वत दलाल, सिद्धार्थ गांधी, सुमुख ऐथल, सिजमोन एंटोनियाक, टेवेन ले स्काओ, थिबॉल्ट शूएलर, थिबॉट लावरिल, थॉमस रॉबर्ट, थॉमस वांग, टिमोथी लैक्रोइक्स, टॉम बेवले, वेलेरिया नेमिचनिकोवा, विक्टर पाल्ट्ज, वर्जिल रिचर्ड, वेन-डिंग ली, विलियम मार्शल, ज़ुआन्यू झांग, यिहान वान, युन्हाओ तांग

रूपरेखा

हम दो मल्टीमॉडल ऑडियो चैट मॉडल, वॉक्सट्रल मिनी और वॉक्सट्रल स्मॉल प्रस्तुत करते हैं। वॉक्सट्रल को बोले गए ऑडियो और टेक्स्ट दस्तावेज़ों, दोनों को समझने के लिए प्रशिक्षित किया गया है, जिससे यह विभिन्न ऑडियो बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है और साथ ही अपनी मज़बूत टेक्स्ट विशेषताओं को भी बरकरार रखता है। वॉक्सट्रल स्मॉल, स्थानीय रूप से चलाने के लिए पर्याप्त छोटा होने के साथ-साथ कई मालिकाना मॉडलों से बेहतर प्रदर्शन करता है। यह 40 मिनट तक की ऑडियो फ़ाइलों और 32K कॉन्टेक्स्ट विंडो के साथ लंबी मल्टी-टर्न बातचीत को संभाल सकता है। हम ज्ञान और सामान्य ज्ञान संबंधी समस्याओं पर वाक् समझ मॉडलों के मूल्यांकन के लिए तीन बेंचमार्क भी प्रदान करते हैं। दोनों वॉक्सट्रल मॉडल अपाचे 2.0 लाइसेंस के तहत जारी किए गए हैं।

Takeaways, Limitations

Takeaways:
ऑडियो बेंचमार्क की एक श्रृंखला में अत्याधुनिक प्रदर्शन प्राप्त करना।
शक्तिशाली पाठ क्षमताओं को बनाए रखना.
स्थानीय रूप से निष्पादन योग्य लघु आकार का मॉडल (वॉक्सट्रल स्मॉल)।
40 मिनट तक की ऑडियो फाइलों और लंबी बहु-टर्न वार्तालापों को संभालने की क्षमता।
वाक् समझ मॉडल के मूल्यांकन के लिए एक नया मानक प्रदान करना।
खुले स्रोत (अपाचे 2.0 लाइसेंस) के रूप में जारी किया गया।
Limitations:
__T35470_____ का स्पष्ट रूप से उल्लेख नहीं किया गया है। वास्तविक उपयोग परिवेशों में प्रदर्शन के लिए अतिरिक्त बेंचमार्क परीक्षण और सत्यापन की आवश्यकता हो सकती है।
👍