ParsVoiceは、テキスト音声変換(TTS)アプリケーション用に設計された最大のペルシャ語音声コーパスです。オーディオブックコンテンツをTTS用のデータに変換する自動化されたパイプラインを構築し、BERTベースの文完成検出器、バイナリ探索境界最適化方式、ペルシャ語に合わせたオーディオテキスト品質評価フレームワークを含む。 2,000のオーディオブックを処理して3,526時間のクリーンな音声を生成し、これをTTSに適した1,804時間の高品質サブセットでフィルタリングした。 ParsVoiceは、マルチスピーカーTTSシステムのトレーニングに有効であることを証明しました。 ParsVoiceはペルシャ語の音声技術の開発を加速するために公に提供されています。