यह शोधपत्र डीप कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) का उपयोग करके ऑडियो डेटा वर्गीकरण में विभिन्न स्पेक्ट्रल और रिदमिक विशेषताओं (मेल-स्केल्ड स्पेक्ट्रोग्राम, MFCC, साइक्लिक टेम्पोग्राम, STFT क्रोमाग्राम, CQT क्रोमाग्राम और CENS क्रोमाग्राम) के प्रदर्शन की तुलना और विश्लेषण करता है। ESC-50 डेटासेट (2,000 पर्यावरणीय ऑडियो रिकॉर्डिंग) का उपयोग करते हुए, हमने ऑडियो श्रेणी और वर्ग-स्तरीय वर्गीकरण के लिए प्रत्येक विशेषता की सटीकता, परिशुद्धता, रिकॉल और F1 स्कोर मापा। प्रयोग एक एंड-टू-एंड डीप लर्निंग पाइपलाइन का उपयोग करके किए गए थे।