Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SoloSpeech : amélioration de l'intelligence et de la qualité de l'extraction vocale cible grâce à un pipeline génératif en cascade

Created by
  • Haebom

Auteur

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

Contour

Cet article aborde le problème de l'extraction de la parole cible (TSE), qui consiste à isoler la parole d'un locuteur spécifique d'un mélange de plusieurs locuteurs. Les méthodes TSE existantes utilisent principalement des modèles discriminants, qui offrent une qualité de reconnaissance élevée. Cependant, ils présentent des problèmes tels que des artefacts, une perte de naturel et une sensibilité aux décalages entre les environnements d'apprentissage et de test. Les modèles génératifs, en revanche, souffrent d'une qualité de reconnaissance et d'une intelligibilité médiocres. Dans cet article, nous proposons SoloSpeech, un nouveau pipeline de génération en cascade qui intègre des processus de compression, d'extraction, de reconstruction et de correction. Au lieu de s'appuyer sur les intégrations de locuteurs, SoloSpeech utilise des informations conditionnelles de l'espace latent des signaux audio pour les aligner sur l'espace latent des signaux audio mixés, évitant ainsi les décalages. L'évaluation sur le jeu de données Libri2Mix révèle que SoloSpeech surpasse les méthodes de pointe existantes en termes d'intelligibilité et de qualité, et démontre d'excellentes performances de généralisation aux données hors domaine et aux contextes réels.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode TSE qui permet d’obtenir des performances élevées sans intégration de haut-parleur.
Amélioration de la génération d'artefacts, de la dégradation du naturel et des problèmes d'adaptation de domaine des méthodes existantes.
De nouvelles performances de pointe ont été obtenues sur l'ensemble de données Libri2Mix.
A démontré d'excellentes performances de généralisation sur des données hors domaine et des environnements réels.
Limitations:
Manque d'analyse du coût informatique et de la complexité de SoloSpeech.
Manque d'évaluation de la robustesse pour divers environnements sonores.
Manque d’évaluation d’ensembles de données supplémentaires au-delà des ensembles de données du monde réel.
👍