Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ArVoice: A Multi-Speaker Dataset for Arabic Speech Synthesis

Created by
  • Haebom

저자

Hawau Olamide Toyin, Rufael Marew, Humaid Alblooshi, Samar M. Magdy, Hanan Aldarmaki

개요

ArVoice는 다중 화자 현대 표준 아랍어(MSA) 음성 말뭉치로, 다이어크리틱(diacritic) 표기가 된 전사를 포함하고 있습니다. 다중 화자 음성 합성을 위해 고안되었으며, 음성 기반 다이어크리틱 복원, 음성 변환, 딥페이크 탐지와 같은 다른 작업에도 유용하게 활용될 수 있습니다. ArVoice는 다양한 인구 통계적 특징을 가진 6명의 성우로부터 새롭게 전문적으로 녹음된 데이터, 아랍어 음성 말뭉치의 수정된 하위 집합, 그리고 두 개의 상용 시스템으로부터 생성된 고품질 합성 음성으로 구성됩니다. 전체 말뭉치는 총 11개의 음성으로 83.52시간의 음성을 포함하며, 그 중 약 10시간은 7명의 화자로부터 얻은 인간 음성으로 구성됩니다. 본 논문에서는 데이터셋의 활용 사례를 보여주기 위해 세 개의 오픈소스 TTS 시스템과 두 개의 음성 변환 시스템을 학습시켰습니다. 해당 말뭉치는 연구 목적으로 사용 가능합니다.

시사점, 한계점

시사점:
다중 화자 현대 표준 아랍어(MSA) 음성 데이터셋의 부족 문제 해결에 기여.
다이어크리틱 표기된 전사 제공으로 다양한 음성 관련 작업에 활용 가능.
오픈소스로 공개되어 연구 접근성 향상.
TTS 및 음성 변환 시스템 성능 평가에 활용 가능.
한계점:
인간 음성 데이터의 양이 전체 데이터셋의 일부분에 불과함 (약 10시간).
상용 시스템으로부터 생성된 합성 음성의 비중이 높음.
화자 수가 제한적일 수 있음 (총 11개 음성).
다양한 방언을 포함하지 않음 (현대 표준 아랍어에만 집중).
👍