본 논문은 음성 감정 인식 분야에서 경량화된 트랜스포머 기반 모델인 DistilHuBERT와 PaSST의 성능을 비교 분석합니다. CREMA-D 데이터셋을 사용하여 여섯 가지 핵심 감정을 분류하며, MFCC 특징을 사용하는 전통적인 CNN-LSTM 기반 모델과 비교합니다. DistilHuBERT는 70.64%의 정확도와 70.36%의 F1 점수를 달성하며, 0.02MB의 작은 모델 크기를 유지하며 PaSST 및 기준 모델을 능가합니다. PaSST의 다양한 분류 헤드(Linear, MLP, Attentive Pooling)에 대한 ablation study를 통해 분류 헤드 구조가 모델 성능에 미치는 영향을 분석했습니다.