本論文は、深層合成積ニューラルネットワーク(CNN)を用いたオーディオデータ分類における様々なスペクトルおよびリズム特徴(mel-scaled spectrograms, MFCC, cyclic tempograms, STFT chromagrams, CQT chromagrams, CENS chromagrams)の性能を比較分析した研究です。 ESC-50データセット(2,000の環境オーディオ録音)を使用して、オーディオカテゴリとクラスレベルの分類で各機能の精度、精度、再現率、F1スコアを測定しました。 end-to-end 深層学習パイプラインを通じて実験を進めました。