ArVoice는 다중 화자 현대 표준 아랍어(MSA) 음성 말뭉치로, 다이어크리틱(diacritic) 표기가 된 전사를 포함하고 있습니다. 다중 화자 음성 합성을 위해 고안되었으며, 음성 기반 다이어크리틱 복원, 음성 변환, 딥페이크 탐지와 같은 다른 작업에도 유용하게 활용될 수 있습니다. ArVoice는 다양한 인구 통계적 특징을 가진 6명의 성우로부터 새롭게 전문적으로 녹음된 데이터, 아랍어 음성 말뭉치의 수정된 하위 집합, 그리고 두 개의 상용 시스템으로부터 생성된 고품질 합성 음성으로 구성됩니다. 전체 말뭉치는 총 11개의 음성으로 83.52시간의 음성을 포함하며, 그 중 약 10시간은 7명의 화자로부터 얻은 인간 음성으로 구성됩니다. 본 논문에서는 데이터셋의 활용 사례를 보여주기 위해 세 개의 오픈소스 TTS 시스템과 두 개의 음성 변환 시스템을 학습시켰습니다. 해당 말뭉치는 연구 목적으로 사용 가능합니다.