# EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification

### 저자

Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Seong-Whan Lee

### 개요

EmoSphere-SER은 음성 신호로부터 화자의 감정 상태를 예측하는 음성 감정 인식(SER) 모델이다.  각성(arousal),  쾌락(valence), 지배력(dominance) (VAD)과 같은 연속적인 차원을 사용하며, 구형 VAD 영역 분류를 통합하여 VAD 회귀를 안내함으로써 감정 예측 성능을 향상시킨다.  VAD 값은 구형 좌표로 변환되고 여러 구형 영역으로 나뉘며, 보조 분류 작업을 통해 각 점이 속한 구형 영역을 예측하여 회귀 과정을 안내한다. 또한, 다중 헤드 자기 주의 메커니즘을 사용하는 스타일 풀링 계층과 동적 가중치 방식을 통합하여 스펙트럼 및 시간적 역학을 포착하여 성능을 더욱 향상시킨다. 이러한 결합된 훈련 전략은 구조화된 학습을 강화하고 예측 일관성을 향상시킨다. 실험 결과, 제안된 프레임워크의 유효성을 확인하며 기존 방법보다 우수한 성능을 보였다.

### 시사점, 한계점

- **시사점:**

    - 구형 VAD 영역 분류를 통합한 새로운 음성 감정 인식 프레임워크 제시

    - 동적 가중치 및 다중 헤드 자기 주의 메커니즘을 활용한 성능 향상

    - 구조화된 학습 강화 및 예측 일관성 향상

    - 기존 방법 대비 우수한 성능 검증

- **한계점:**

    - 제시된 모델의 일반화 성능에 대한 추가적인 실험 필요

    - 다양한 데이터셋에 대한 성능 평가 및 비교 분석 필요

    - 특정 감정에 대한 편향성 존재 가능성

    - 계산 비용 및 복잡도에 대한 고려 필요

[PDF 보기](https://arxiv.org/pdf/2505.19693)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).