Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Created by
  • Haebom

作者

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery

概要

ParsVoiceは、テキスト音声変換(TTS)アプリケーション用に設計された最大のペルシャ語音声コーパスです。オーディオブックコンテンツをTTS用のデータに変換する自動化されたパイプラインを構築し、BERTベースの文完成検出器、バイナリ探索境界最適化方式、ペルシャ語に合わせたオーディオテキスト品質評価フレームワークを含む。 2,000のオーディオブックを処理して3,526時間のクリーンな音声を生成し、これをTTSに適した1,804時間の高品質サブセットでフィルタリングした。 ParsVoiceは、マルチスピーカーTTSシステムのトレーニングに有効であることを証明しました。 ParsVoiceはペルシャ語の音声技術の開発を加速するために公に提供されています。

Takeaways、Limitations

最大の高品質ペルシャ語音声データセットを提供
様々な話者や英語コーパスに似たオーディオ品質を提供
XTTSをペルシャ語に微調整してデータセットの効果を実証
パブリックデータセットを使用できるようにすることで、ペルシャ語音声技術の開発を加速
論文自体のLimitationsは指定されていません。
👍