Sign In

Voice Cloning for Dysarthric Speech Synthesis: Addressing Data Scarcity in Speech-Language Pathology

Created by
  • Haebom
Category
Empty

저자

Birger Moell, Fredrik Sand Aronsson

개요

본 연구는 디스아트리아 환자의 독특한 음성 패턴을 복제하는 합성 음성을 생성하기 위한 음성 복제 기술을 탐구합니다. TORGO 데이터셋을 사용하여 언어병리학에서의 데이터 부족 및 개인 정보 보호 문제를 해결합니다. 본 연구의 기여는 디스아트리아 음성 특징을 보존하는 음성 복제 기술의 효과를 보여주고, 실제 데이터와 합성 데이터 간의 차이를 분석하며, 진단, 재활 및 의사소통에 대한 시사점을 논의하는 데 있습니다. 상용 플랫폼을 사용하여 디스아트리아 환자와 대조군의 음성을 복제하고, 성별을 일치시킨 합성 음성을 생성했습니다. 면허를 소지한 언어병리학자가 일부 데이터를 대상으로 디스아트리아, 화자 성별 및 합성 여부를 평가했습니다. 언어병리학자는 모든 경우에 디스아트리아를 정확하게 식별했고, 95%의 경우 화자 성별을 정확하게 식별했지만, 30%의 합성 샘플을 실제 샘플로 잘못 분류하여 높은 현실감을 보여주었습니다. 본 연구 결과는 합성 음성이 장애 특징을 효과적으로 포착하고, 음성 복제 기술이 숙련된 전문가에게도 실제 음성과 유사한 고품질 데이터를 생성할 수 있을 만큼 발전했음을 시사합니다. 이는 합성 데이터를 통해 데이터 부족 문제를 완화하고, 개인 정보를 보호하며, AI 기반 진단을 향상시킬 수 있는 의료 분야에 중요한 시사점을 제공합니다. 다양하고 고품질의 음성 데이터셋을 생성함으로써, 음성 복제 기술은 일반화 가능한 모델을 개선하고, 치료를 개인화하며, 디스아트리아를 위한 보조 기술을 발전시킬 수 있습니다. 본 연구에서는 추가 연구 및 협력을 촉진하기 위해 합성 데이터셋을 공개적으로 배포하여 언어병리학에서 환자 결과를 개선하는 강력한 모델 개발을 목표로 합니다.

시사점, 한계점

시사점:
디스아트리아 음성 특징을 정확하게 복제하는 음성 복제 기술의 가능성을 제시.
데이터 부족 및 개인 정보 보호 문제 해결에 대한 해결책 제시.
AI 기반 진단 및 개인 맞춤형 치료의 발전에 기여.
디스아트리아 환자의 의사소통 개선 및 삶의 질 향상에 기여.
공개된 합성 데이터셋을 통한 추가 연구 및 협력 가능성 증대.
한계점:
상용 플랫폼에 의존하여 음성 복제를 수행, 플랫폼의 특성에 따른 결과의 일반화 가능성 제한.
제한된 샘플 크기 및 특정 언어병리학자의 평가에 의존, 결과의 일반화 가능성 제한.
합성 음성의 현실성 평가에 대한 객관적인 지표 부족.
다양한 디스아트리아 유형에 대한 일반화 가능성 검증 필요.
👍