Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models
Created by
Haebom
Category
Empty
저자
Harm Lameris, Shree Harsha Bokkahalli Satish, Joakim Gustafson, Eva Szekely
개요
본 논문은 음성 기반 모델(SFMs)이 음성 신호의 부가적인 정보인 음성 품질(특히, 쉰 소리와 거친 소리)에 어떻게 반응하는지 탐구한다. 기존의 텍스트 기반 접근 방식을 우회하여 원시 오디오를 직접 처리하는 SFMs의 능력을 활용하여, 음성 감정 인식 및 개방형 생성 작업을 통해 모델의 반응을 평가한다. 쉰 소리와 거친 소리에 대한 SFMs의 민감도를 평가하기 위해 합성된 음성 품질 변형을 포함하는 새로운 데이터세트를 도입한다.
시사점, 한계점
•
SFMs이 쉰 소리와 거친 소리와 같은 음성 품질 변화에 어떻게 반응하는지 최초로 조사.
•
음성 품질 변화에 대한 SFMs의 민감도를 평가하기 위한 새로운 병렬 데이터세트 개발.
•
개방형 생성 작업과 음성 감정 인식을 통해 모델 동작 평가.
•
기존의 여러 선택형 문제 기반 벤치마크의 한계를 극복.
•
연구 대상이 SFMs의 특정 측면에 제한됨.
•
사용된 데이터세트가 합성된 음성 변형을 포함하므로, 실제 음성 데이터에서의 성능을 일반화하는 데 한계가 있을 수 있음.