[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मशीनों के लिए कार्य-विशिष्ट ऑडियो कोडिंग: मशीन द्वारा सीखी गई अव्यक्त विशेषताएँ उस मशीन के लिए कोड हैं

Created by
  • Haebom

लेखक

अनास्तासिया कुज़नेत्सोवा, इंसियन जांग, वूटेक लिम, मिंजे किम

रूपरेखा

इस शोधपत्र में, हम मशीनों के लिए ऑडियो कोडिंग (ACoM) पर केंद्रित, पूर्व-प्रशिक्षित वाक्/श्रव्य मॉडलों के मध्यवर्ती फ़ीचर निरूपणों को कुशलतापूर्वक संपीड़ित और परिमाणित करने की एक नवीन विधि प्रस्तुत करते हैं। उच्च-निष्ठा पुनर्निर्माण पर केंद्रित पारंपरिक न्यूरल ऑडियो कोडेक्स के विपरीत, हमारे अध्ययन का उद्देश्य उप-कार्य प्रदर्शन को प्राथमिकता देकर अति-निम्न बिटरेट (<200 bps) पर भी उप-मॉडल प्रदर्शन में गिरावट को कम करना है। अवशिष्ट वेक्टर परिमाणीकरण (RVQ) हानि और कार्य-विशिष्ट हानि मार्गदर्शन का लाभ उठाकर, हम एक टोकनाइज़र बनाते हैं जिसे विभिन्न बिटरेट और मॉडल आकारों पर लागू किया जा सकता है, और स्वचालित वाक् पहचान और ऑडियो वर्गीकरण कार्यों पर इसकी प्रभावशीलता प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हम एक कुशल ACoM विधि प्रस्तुत करते हैं जो अति-निम्न बिट दर (200 bps से कम) पर भी उप-मॉडल प्रदर्शन में गिरावट को न्यूनतम कर देती है।
विभिन्न बिट दरों और मॉडल आकारों पर लागू एक लचीला टोकेनाइजर प्रदान करता है।
स्वचालित वाक् पहचान और ऑडियो वर्गीकरण कार्यों में प्रभावी सिद्ध।
विभिन्न प्रकार के कार्यों और आर्किटेक्चर के लिए प्रयोज्यता प्रदर्शित करता है।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विविध वाक्/श्रव्य डेटासेट पर व्यापक प्रयोगात्मक परिणामों की आवश्यकता है।
विशिष्ट कार्यों और आर्किटेक्चर पर निर्भरता को कम करने के लिए आगे अनुसंधान की आवश्यकता है।
👍