Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Interpolation des identités des locuteurs dans l'espace d'intégration pour l'expansion des données

Created by
  • Haebom

Auteur

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

Contour

Pour pallier les limites des systèmes d'authentification des locuteurs basés sur l'apprentissage profond, qui dépendent fortement de l'accès à des ensembles de données de locuteurs vastes et diversifiés, cet article propose INSIDE (Interpolating Speaker Identities in Embedding Space), une nouvelle méthode d'augmentation des données qui synthétise de nouveaux identifiants de locuteurs par interpolation entre les intégrations de locuteurs existantes. INSIDE sélectionne des paires d'intégrations de locuteurs proches dans un espace d'intégration de locuteurs pré-entraîné et calcule une intégration intermédiaire par interpolation linéaire sphérique. Ces intégrations interpolées sont introduites dans un système de synthèse vocale pour générer les formes d'onde vocales correspondantes. Les données résultantes sont ensuite combinées à l'ensemble de données d'origine pour entraîner des sous-modèles. Les résultats expérimentaux démontrent que les modèles entraînés avec des données augmentées par INSIDE surpassent les modèles entraînés uniquement sur des données réelles, obtenant des gains de performance relatifs de 3,06 % à 5,24 % pour l'authentification des locuteurs. La classification par sexe démontre également un gain de performance relatif de 13,44 %. INSIDE est compatible avec d’autres techniques d’augmentation, ce qui en fait un ajout flexible et évolutif aux pipelines de formation existants.

Takeaways, Limitations

Takeaways:
Nous présentons une technique efficace d’augmentation des données qui peut améliorer les performances de l’authentification des locuteurs basée sur l’apprentissage en profondeur et des tâches associées, même avec des données limitées.
Il démontre également l’applicabilité à d’autres tâches, telles que la classification du genre, en plus de l’authentification du locuteur.
Une méthode flexible et évolutive qui peut être facilement intégrée dans les pipelines de formation existants.
Limitations:
Les intégrations de haut-parleurs interpolées peuvent ne pas refléter parfaitement les caractéristiques des haut-parleurs réels.
La qualité des données générées peut être affectée par les performances du système de synthèse vocale.
Des considérations supplémentaires peuvent être nécessaires concernant les questions de confidentialité (telles que le risque de fuite d’informations personnelles lors de la synthèse des données).
👍