본 논문은 음성 감정 인식을 위해 음성 특징을 기반으로 한 잔차 합성곱 신경망(ResNet)을 제안하고, Focal Loss를 이용하여 학습시킵니다. 스펙트로그램 및 멜 주파수 케프스트럼 계수(MFCCs)와 같은 음성 특징은 단순 텍스트보다 감정을 더 잘 특징짓는 것으로 나타났습니다. One-Stage Object Detector에서 처음 사용된 Focal Loss는 학습 과정을 어려운 예시에 집중시키고 잘 분류된 예시에 할당된 손실을 감소시켜 모델이 쉽게 분류 가능한 예시에 압도되는 것을 방지하는 역할을 합니다.