# Joint Learning using Mixture-of-Expert-Based Representation for Speech Enhancement and Robust Emotion Recognition

### 저자

Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee

### 💡 개요

본 논문은 잡음 환경에서 성능이 저하되는 음성 감정 인식(SER) 문제를 해결하기 위해, 음성 향상(SE)과 SER을 공동으로 학습하는 새로운 다중 작업 학습(MTL) 프레임워크인 Sparse MERIT를 제안합니다. Sparse MERIT는 프레임별로 최적의 전문가를 동적으로 선택하는 Mixture-of-Experts(MoE) 기반의 표현 학습 방식을 사용하여, 작업 간의 간섭을 줄이고 효율적인 표현을 학습합니다. 실험 결과, Sparse MERIT는 잡음이 심한 환경에서도 기존 방법론 대비 SER 및 SE 성능을 유의미하게 향상시키는 것으로 나타났습니다.

### 🔑 시사점 및 한계

- 잡음이 심한 환경에서도 음성 감정 인식 및 음성 향상 성능을 동시에 개선할 수 있는 효과적인 MTL 프레임워크를 제시합니다.

- Mixture-of-Experts 기반의 동적 전문가 라우팅을 통해 작업 특화적이고 효율적인 표현 학습이 가능함을 입증합니다.

- 제안된 Sparse MERIT 모델은 여러 종류의 잡음 조건에서 일반화 성능이 우수함을 보여줍니다.

- (한계점 또는 향후 과제) 다양한 언어 및 감정 데이터셋에 대한 추가적인 검증이 필요하며, MoE 라우팅 메커니즘의 복잡성을 줄이기 위한 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2509.08470)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).