EmoSphere-SER은 음성 신호로부터 화자의 감정 상태를 예측하는 음성 감정 인식(SER) 모델이다. 각성(arousal), 쾌락(valence), 지배력(dominance) (VAD)과 같은 연속적인 차원을 사용하며, 구형 VAD 영역 분류를 통합하여 VAD 회귀를 안내함으로써 감정 예측 성능을 향상시킨다. VAD 값은 구형 좌표로 변환되고 여러 구형 영역으로 나뉘며, 보조 분류 작업을 통해 각 점이 속한 구형 영역을 예측하여 회귀 과정을 안내한다. 또한, 다중 헤드 자기 주의 메커니즘을 사용하는 스타일 풀링 계층과 동적 가중치 방식을 통합하여 스펙트럼 및 시간적 역학을 포착하여 성능을 더욱 향상시킨다. 이러한 결합된 훈련 전략은 구조화된 학습을 강화하고 예측 일관성을 향상시킨다. 실험 결과, 제안된 프레임워크의 유효성을 확인하며 기존 방법보다 우수한 성능을 보였다.