본 논문은 심층 합성곱 신경망(CNN)을 이용한 오디오 데이터 분류에서 다양한 스펙트럼 및 리듬 특징(mel-scaled spectrograms, MFCC, cyclic tempograms, STFT chromagrams, CQT chromagrams, CENS chromagrams)의 성능을 비교 분석한 연구입니다. ESC-50 데이터셋(2,000개의 환경 오디오 레코딩)을 사용하여 오디오 카테고리 및 클래스 수준 분류에서 각 특징의 정확도, 정밀도, 재현율, F1 점수를 측정하였습니다. end-to-end 심층 학습 파이프라인을 통해 실험을 진행했습니다.