본 논문은 대규모 생성 모델을 인간의 피드백에 맞추는 데 중요한 과제인 음성 합성에 초점을 맞추어, 인간의 인지에 진정으로 부합하는 모델 개발을 방해하는 대규모 인간 선호도 데이터세트 부족 문제를 해결하고자 합니다. 이를 위해, 자연스러움에 초점을 맞춘 데이터세트, 벤치마크, 보상 모델을 포함하는 SpeechJudge를 제안합니다. SpeechJudge는 99K 음성 쌍으로 구성된 대규모 인간 피드백 코퍼스인 SpeechJudge-Data, 음성 자연스러움 판단을 위한 도전적인 벤치마크 SpeechJudge-Eval, Qwen2.5-Omni-7B 기반의 생성 보상 모델(GRM) SpeechJudge-GRM으로 구성됩니다. SpeechJudge-GRM은 Supervised Fine-Tuning(SFT)과 Reinforcement Learning(RL)을 통해 학습되었으며, SpeechJudge-Eval 벤치마크에서 우수한 성능을 보였습니다. 또한, SpeechJudge-GRM은 음성 생성 모델의 후속 학습 시 인간의 선호도에 맞게 조정하는 데 사용될 수 있습니다.
시사점, 한계점
•
시사점:
◦
음성 합성 분야에서 인간의 선호도를 고려한 모델 개발을 위한 데이터셋, 벤치마크, 보상 모델 제시.
◦
기존 평가 지표 및 AudioLLM의 한계를 지적하고, GRM 기반의 새로운 접근 방식을 통해 성능 향상.
◦
SpeechJudge-GRM을 음성 생성 모델의 후속 학습에 활용하여 인간의 선호도에 더욱 부합하는 모델 개발 가능성을 제시.
•
한계점:
◦
해당 논문에서 구체적으로 언급된 한계점은 명시되지 않음. (논문 내용을 통해 유추)
◦
SpeechJudge-GRM의 일반화 능력 및 다른 언어 또는 음성 스타일에 대한 성능 평가가 추가적으로 필요할 수 있음.