Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement

Created by
  • Haebom
Category
Empty

저자

Xinyue Yu, Youqing Fang, Pingyu Wu, Guoyang Ye, Wenbo Zhou, Weiming Zhang, Song Xiao

개요

MF-Speech는 표현력이 풍부하고 제어 가능한 인간 음성을 생성하는 것을 목표로 하는 새로운 프레임워크입니다. 음성 요인의 깊은 얽힘과 기존 제어 메커니즘의 거친 세분성이라는 두 가지 주요 과제를 해결하기 위해 MF-SpeechEncoder와 MF-SpeechGenerator로 구성됩니다. MF-SpeechEncoder는 다중 목표 최적화 전략을 사용하여 음성 신호를 내용, 음색, 감정의 순수한 표현으로 분해합니다. MF-SpeechGenerator는 동적 융합과 HSAN (Hierarchical Style Adaptive Normalization)을 통해 이러한 요소를 정밀하게 제어합니다. 실험 결과 MF-Speech는 다중 요인 구성 음성 생성 작업에서 뛰어난 성능을 보였으며, 낮은 단어 오류율(WER=4.67%), 우수한 스타일 제어(SECS=0.5685, Corr=0.68), 그리고 가장 높은 주관적 평가 점수를 달성했습니다(nMOS=3.96, sMOS_emotion=3.86, sMOS_style=3.78).

시사점, 한계점

MF-Speech는 음성 요인을 분리하고 정밀하게 제어하여, 기존 방식의 한계를 극복했습니다.
다중 요인 구성 음성 생성 작업에서 SOTA를 달성하여 우수한 성능을 입증했습니다.
학습된 이산 요인은 강력한 전이성을 보여, 일반적인 음성 표현으로의 잠재력을 시사합니다.
논문의 구체적인 한계점은 명시되지 않았습니다.
👍