# APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech

### 저자

Zhicheng Lian, Lizhi Wang, Hua Huang

### 개요

본 논문은 합성 음성의 평균 의견 점수(MOS) 예측에서 심층 학습 기반 모델의 한계점인 인간의 청각 인지 메커니즘 무시 문제를 해결하기 위해 청각 인지 기반 MOS 예측 모델(APG-MOS)을 제안합니다.  APG-MOS는 생물학적 청각 메커니즘에 기반한 지각 모듈을 통해 음향 신호를 생물학적으로 정렬된 전기화학적 표현으로 인코딩하고, RVQ(Residual Vector Quantization) 기반 의미 왜곡 모델링 방법을 통해 의미 수준에서의 음성 품질 저하를 정량화합니다.  또한, 인코딩된 전기화학적 신호와 의미 표현의 다중 모드 융합을 가능하게 하는 잔차 교차 주의 아키텍처와 점진적 학습 전략을 설계했습니다. 실험 결과, APG-MOS는 두 가지 주요 벤치마크에서 우수한 성능을 달성했습니다.

### 시사점, 한계점

- **시사점:**

    - 생물학적 청각 메커니즘을 통합하여 인간의 주관적 판단과의 일관성을 높인 MOS 예측 모델 제시.

    - RVQ 기반 의미 왜곡 모델링을 통해 의미 수준에서의 음성 품질 저하를 효과적으로 정량화.

    - 다중 모드 융합과 점진적 학습 전략을 통해 MOS 예측 성능 향상.

    - 공개 저장소를 통해 코드 및 체크포인트 공개 예정.

- **한계점:**

    - 제시된 모델의 일반화 성능에 대한 추가적인 검증 필요.

    - 다양한 유형의 음성 데이터에 대한 성능 평가 필요.

    - 생물학적 청각 모델의 정확성과 한계에 대한 심층적인 분석 필요.

[PDF 보기](https://arxiv.org/pdf/2504.20447)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).