Sign In

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models

Created by
  • Haebom
Category
Empty

저자

Harm Lameris, Shree Harsha Bokkahalli Satish, Joakim Gustafson, Eva Szekely

개요

본 논문은 음성 기반 모델(SFMs)이 음성 신호의 부가적인 정보인 음성 품질(특히, 쉰 소리와 거친 소리)에 어떻게 반응하는지 탐구한다. 기존의 텍스트 기반 접근 방식을 우회하여 원시 오디오를 직접 처리하는 SFMs의 능력을 활용하여, 음성 감정 인식 및 개방형 생성 작업을 통해 모델의 반응을 평가한다. 쉰 소리와 거친 소리에 대한 SFMs의 민감도를 평가하기 위해 합성된 음성 품질 변형을 포함하는 새로운 데이터세트를 도입한다.

시사점, 한계점

SFMs이 쉰 소리와 거친 소리와 같은 음성 품질 변화에 어떻게 반응하는지 최초로 조사.
음성 품질 변화에 대한 SFMs의 민감도를 평가하기 위한 새로운 병렬 데이터세트 개발.
개방형 생성 작업과 음성 감정 인식을 통해 모델 동작 평가.
기존의 여러 선택형 문제 기반 벤치마크의 한계를 극복.
연구 대상이 SFMs의 특정 측면에 제한됨.
사용된 데이터세트가 합성된 음성 변형을 포함하므로, 실제 음성 데이터에서의 성능을 일반화하는 데 한계가 있을 수 있음.
👍