Sign In

Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS

Created by
  • Haebom
Category
Empty

저자

Tuan Nam Nguyen, Seymanur Akti, Ngoc Quan Pham, Alexander Waibel

개요

본 논문은 기존의 악센트 변환(AC) 연구가 원본 내용과 화자 정체성을 유지하면서 비원어민 발음을 원어민처럼 만드는 데 초점을 맞춘 것과 달리, 비원어민 화자의 발음 문제까지 개선하는 새로운 AC 접근법을 제시합니다. 비원어민 음성과 해당 텍스트를 입력으로 받아, 원본 지속 시간과 운율을 유지하면서 원어민 수준의 발음을 가진 이상적인 목표 음성을 생성합니다. 이 목표 데이터는 모델이 악센트 있는 음성과 원어민 음성 간의 직접적인 매핑을 학습하는 데 도움을 줍니다. 고품질 파형 재구성을 위해 end-to-end VITS 프레임워크를 사용하며, 평가 결과를 통해 원어민 악센트에 가까운 음성을 생성하면서 원본 화자의 정체성을 유지하고 발음까지 개선하는 것을 보여줍니다.

시사점, 한계점

시사점:
기존의 악센트 변환 연구의 한계를 넘어, 비원어민의 발음 정확도까지 향상시키는 새로운 접근법 제시.
원어민 수준의 발음을 가진 목표 음성 데이터를 생성하여 모델 학습 효율 증대.
VITS 프레임워크를 활용하여 고품질의 음성 재구성 달성.
원본 화자의 정체성 유지하면서 악센트와 발음을 동시에 개선.
한계점:
제시된 접근법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 악센트와 발음 문제에 대한 모델의 로버스트니스 평가 필요.
목표 음성 데이터 생성 과정의 자동화 및 효율성 개선 필요.
실제 사용 환경에서의 성능 평가 및 사용자 경험 연구 필요.
👍