Cet article aborde le problème de l'extraction de la parole cible (TSE), qui consiste à isoler la parole d'un locuteur spécifique d'un mélange de plusieurs locuteurs. Les méthodes TSE existantes utilisent principalement des modèles discriminants, qui offrent une qualité de reconnaissance élevée. Cependant, ils présentent des problèmes tels que des artefacts, une perte de naturel et une sensibilité aux décalages entre les environnements d'apprentissage et de test. Les modèles génératifs, en revanche, souffrent d'une qualité de reconnaissance et d'une intelligibilité médiocres. Dans cet article, nous proposons SoloSpeech, un nouveau pipeline de génération en cascade qui intègre des processus de compression, d'extraction, de reconstruction et de correction. Au lieu de s'appuyer sur les intégrations de locuteurs, SoloSpeech utilise des informations conditionnelles de l'espace latent des signaux audio pour les aligner sur l'espace latent des signaux audio mixés, évitant ainsi les décalages. L'évaluation sur le jeu de données Libri2Mix révèle que SoloSpeech surpasse les méthodes de pointe existantes en termes d'intelligibilité et de qualité, et démontre d'excellentes performances de généralisation aux données hors domaine et aux contextes réels.