दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स के साथ श्रेणी और वर्ग स्तर ऑडियो वर्गीकरण के लिए स्पेक्ट्रल और रिदम फ़ीचर प्रदर्शन मूल्यांकन

Created by
  • Haebom

लेखक

फ्रेडरिक वुल्फ-मोनहेम

रूपरेखा

यह शोधपत्र डीप कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) का उपयोग करके ऑडियो डेटा वर्गीकरण में विभिन्न स्पेक्ट्रल और रिदमिक विशेषताओं (मेल-स्केल्ड स्पेक्ट्रोग्राम, MFCC, साइक्लिक टेम्पोग्राम, STFT क्रोमाग्राम, CQT क्रोमाग्राम और CENS क्रोमाग्राम) के प्रदर्शन की तुलना और विश्लेषण करता है। ESC-50 डेटासेट (2,000 पर्यावरणीय ऑडियो रिकॉर्डिंग) का उपयोग करते हुए, हमने ऑडियो श्रेणी और वर्ग-स्तरीय वर्गीकरण के लिए प्रत्येक विशेषता की सटीकता, परिशुद्धता, रिकॉल और F1 स्कोर मापा। प्रयोग एक एंड-टू-एंड डीप लर्निंग पाइपलाइन का उपयोग करके किए गए थे।

Takeaways, Limitations

Takeaways: हम दर्शाते हैं कि मेल-स्केल्ड स्पेक्ट्रोग्राम और MFCC, डीप CNNs का उपयोग करके ऑडियो वर्गीकरण कार्यों में अन्य स्पेक्ट्रल और लय विशेषताओं से काफ़ी बेहतर प्रदर्शन करते हैं। यह भविष्य के ऑडियो वर्गीकरण मॉडल के विकास के लिए बहुमूल्य अंतर्दृष्टि प्रदान करता है।
Limitations: चूँकि यह प्रयोग केवल ESC-50 डेटासेट का उपयोग करके किया गया था, इसलिए अन्य डेटासेट पर सामान्यीकरण प्रदर्शन निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। विभिन्न CNN आर्किटेक्चर का तुलनात्मक विश्लेषण उपलब्ध नहीं है। विभिन्न विशेषताओं के संयोजन पर प्रदर्शन विश्लेषण का अभाव भी Limitations की एक सीमा माना जा सकता है।
👍