Sign In

Emotion Detection in Speech Using Lightweight and Transformer-Based Models: A Comparative and Ablation Study

Created by
  • Haebom
Category
Empty

저자

Lucky Onyekwelu-Udoka, Md Shafiqul Islam, Md Shahedul Hasan

개요

본 논문은 음성 감정 인식 분야에서 경량화된 트랜스포머 기반 모델인 DistilHuBERT와 PaSST의 성능을 비교 분석합니다. CREMA-D 데이터셋을 사용하여 여섯 가지 핵심 감정을 분류하며, MFCC 특징을 사용하는 전통적인 CNN-LSTM 기반 모델과 비교합니다. DistilHuBERT는 70.64%의 정확도와 70.36%의 F1 점수를 달성하며, 0.02MB의 작은 모델 크기를 유지하며 PaSST 및 기준 모델을 능가합니다. PaSST의 다양한 분류 헤드(Linear, MLP, Attentive Pooling)에 대한 ablation study를 통해 분류 헤드 구조가 모델 성능에 미치는 영향을 분석했습니다.

시사점, 한계점

시사점:
DistilHuBERT는 뛰어난 정확도와 F1 점수를 보여주며, 매우 작은 모델 크기를 통해 엣지 디바이스에서의 실시간 음성 감정 인식에 적합함을 입증했습니다.
PaSST의 MLP 헤드가 다른 변형보다 우수한 성능을 보였지만, DistilHuBERT에는 미치지 못했습니다.
분노 감정은 일관되게 가장 정확하게 감지되었으며, 혐오 감정은 여전히 가장 어려운 과제로 남아있습니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다.
👍