दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ओएलकेएवीएस: एक खुला बड़े पैमाने का कोरियाई ऑडियो-विजुअल भाषण डेटासेट

Created by
  • Haebom

लेखक

जियोंगक्यून पार्क, जंग-वूक ह्वांग, क्वांगही चोई, सेउंग-ह्यून ली, जुन ह्वान आह्न, राय-होंग पार्क, ह्युंग-मिन पार्क

रूपरेखा

ओपन लार्ज-स्केल कोरियन ऑडियो-विजुअल स्पीच (OLKAVS) डेटासेट सार्वजनिक रूप से उपलब्ध सबसे बड़ा वीडियो-ऑडियो डेटासेट (1,150 घंटे का वीडियो, 1,107 कोरियाई वक्ता) समेटे हुए है। इसे एक स्टूडियो वातावरण में रिकॉर्ड किया गया था, जिसमें नौ अलग-अलग दृष्टिकोण और विभिन्न शोर स्थितियों को शामिल किया गया था। यह वीडियो स्पीच रिकग्निशन और लिप रीडिंग दोनों कार्यों के लिए पूर्व-प्रशिक्षित बेसलाइन मॉडल भी प्रदान करता है, और इसमें मल्टीमॉडल और मल्टी-व्यू लर्निंग की प्रभावशीलता को प्रमाणित करने वाले प्रायोगिक परिणाम शामिल हैं। इससे मौजूदा अंग्रेजी-केंद्रित डेटासेट की सीमाओं को दूर करने और कोरियाई स्पीच रिकग्निशन, स्पीकर रिकग्निशन, उच्चारण स्तर वर्गीकरण और लिप मूवमेंट विश्लेषण सहित विविध क्षेत्रों में मल्टीमॉडल अनुसंधान को सुगम बनाने की उम्मीद है।

Takeaways, Limitations

Takeaways:
कोरियाई भाषा में बहुविध अनुसंधान को सुविधाजनक बनाने के लिए बड़े पैमाने पर कोरियाई ऑडियो-वीडियो डेटासेट उपलब्ध कराना।
विभिन्न दृष्टिकोणों (9 प्रकार) और शोर स्थितियों को शामिल करके, वास्तविक वातावरण को प्रतिबिंबित करना और मजबूत मॉडल विकसित करना संभव है।
पूर्व-प्रशिक्षित संदर्भ मॉडल प्रदान करके अनुसंधान प्रवेश बाधाओं को कम करना।
बहु-मॉडल और बहु-दृश्य शिक्षण की प्रभावशीलता के सत्यापन के माध्यम से अनुसंधान दिशाओं का सुझाव देना।
Limitations:
डेटासेट आकार में बड़ा है, लेकिन इसमें विविधता पहलुओं (वक्ता की विशेषताएं, कथन सामग्री, आदि) का विशिष्ट विवरण नहीं है।
डेटासेट निर्माण के दौरान पूर्वानुमान मॉडल निर्भरता का कोई स्पष्ट उल्लेख नहीं (अधिक शोध की आवश्यकता है)
👍