Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

Created by
  • Haebom

저자

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

개요

본 논문은 제한된 데이터로 인해 어려움을 겪는 구어장애 발화를 위한 보조 기술 개발에 초점을 맞추고 있다. 영(zero-shot) 음성 복제 기술을 활용한 신경 음성 합성의 최근 발전은 데이터 증강을 위한 합성 음성 생성을 용이하게 하지만, 구어장애 발화에 대한 편향을 도입할 수 있다. 본 연구는 TORGO 데이터셋을 사용하여 최첨단 F5-TTS가 구어장애 발화를 복제하는 효과를 명료성, 화자 유사성, 운율 보존 측면에서 조사하고, 불공정 영향 및 패리티 차이와 같은 공정성 지표를 사용하여 구어장애 심각도 수준 간의 불균형을 평가한다.

시사점, 한계점

시사점: F5-TTS가 구어장애 발화 합성에서 화자 및 운율 보존보다 발화 명료성에 대한 강한 편향을 보임을 밝혔다. 이 연구는 공정성을 고려한 구어장애 발화 합성 통합에 도움이 되어 더욱 포괄적인 음성 기술 발전에 기여할 수 있다.
한계점: 구체적인 한계점은 논문에서 명시적으로 언급되지 않았다. 다만, 특정 데이터셋(TORGO)에 대한 의존성 및 F5-TTS 모델의 성능에 대한 추가 분석이 필요할 수 있다. 또한, 공정성 지표를 활용한 편향 분석의 범위 및 한계에 대한 논의가 부족하다.
👍