Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

Created by
  • Haebom

Auteur

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

Contour

Cet article se concentre sur le développement de technologies d'assistance à la parole pour la dysarthrie, un défi en raison du manque de données. Les avancées récentes en synthèse vocale neuronale, utilisant des techniques de réplication vocale « zero-shot », facilitent la génération de voix synthétiques pour l'augmentation des données, mais peuvent introduire des biais dans la parole dysarthrique. À l'aide de l'ensemble de données TORGO, cette étude examine l'efficacité de la synthèse vocale F5-TTS de pointe pour la réplication de la parole dysarthrique en termes d'intelligibilité, de similarité entre locuteurs et de préservation de la prosodie. De plus, des indicateurs d'équité tels que l'impact injuste et la différence de parité sont utilisés pour évaluer le déséquilibre entre les niveaux de gravité de la dysarthrie.

Takeaways, Limitations_

Takeaways: Nous avons constaté que la synthèse vocale F5-TTS présentait un fort biais en faveur de l'intelligibilité de la parole par rapport à la préservation du locuteur et de la prosodie dans la synthèse vocale pour la dysarthrie. Cette étude pourrait contribuer au développement de technologies vocales plus complètes en intégrant la synthèse vocale pour la dysarthrie dans un souci d'équité.
Limitations : Le Limitations spécifique n'est pas explicitement mentionné dans l'article. Cependant, une analyse plus approfondie pourrait être nécessaire concernant la dépendance à un ensemble de données spécifique (TORGO) et les performances du modèle F5-TTS. De plus, la portée et les limites de l'analyse des biais utilisant des mesures d'équité sont peu abordées.
👍