Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FMSD-TTS : Synthèse vocale multi-dialectes multi-locuteurs à quelques clichés pour la génération de jeux de données vocales en U-Tsang, Amdo et Kham

Created by
  • Haebom

Auteur

Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

Contour

FMSD-TTS est un système de synthèse vocale multi-dialectes et multi-locuteurs, proposé pour répondre aux besoins des langues à faibles ressources et dépourvues de corpus de parole parallèle pour les trois principaux dialectes tibétains (U-Tsang, Amdo et Kham). Il synthétise la parole dialectale parallèle à l'aide d'un son de référence limité et d'étiquettes dialectales explicites. Il capture les variations acoustiques et linguistiques subtiles entre les dialectes tout en préservant l'identité du locuteur grâce à un module de fusion locuteur-dialecte et à un réseau de routage dynamique spécifique au dialecte (DSDR-Net). Des évaluations objectives et subjectives démontrent des améliorations significatives de l'expressivité dialectale et de la similarité des locuteurs par rapport aux modèles de base. De plus, la qualité et la convivialité de la parole synthétisée sont vérifiées par une tâche complexe de conversion de la parole en dialecte. Parmi les principales contributions figurent la mise en œuvre d'un système de synthèse vocale multi-dialectes tibétains à quelques coups, la publication d'un corpus de parole tibétain synthétique à grande échelle généré par FMSD-TTS et un outil d'évaluation open source pour l'évaluation standardisée de la similarité des locuteurs, de la cohérence dialectale et de la qualité audio.

Takeaways, Limitations_

Takeaways:
Une solution efficace au problème de la synthèse vocale multidialectale en tibétain, une langue à faibles ressources.
Contribuer à la recherche future en publiant un corpus de parole tibétain synthétique à grande échelle généré via FMSD-TTS.
Contribuer à la normalisation et à l'avancement de la recherche sur la synthèse vocale multi-dialectique en fournissant des outils d'évaluation open source.
Obtenir des performances élevées avec moins de données grâce à un apprentissage en quelques étapes.
Limitations:
Les informations actuellement disponibles sont insuffisantes pour fournir des détails spécifiques sur les limites de performance du FMSD-TTS.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres langages à faibles ressources.
Une analyse plus approfondie du caractère naturel des voix synthétiques est nécessaire.
👍