Este artículo aborda el problema de la Extracción del Habla Objetivo (TSE), que consiste en aislar el habla de un hablante específico de una mezcla de habla de varios hablantes. Los métodos de TSE existentes utilizan principalmente modelos discriminativos, que ofrecen una alta calidad de reconocimiento. Sin embargo, presentan problemas como artefactos, menor naturalidad y sensibilidad a las discrepancias entre los entornos de entrenamiento y prueba. Los modelos generativos, por otro lado, presentan baja calidad de reconocimiento e inteligibilidad. En este artículo, proponemos SoloSpeech, un novedoso proceso de generación en cascada que integra procesos de compresión, extracción, reconstrucción y corrección. En lugar de basarse en la incrustación de hablantes, SoloSpeech utiliza información condicional del espacio latente del audio de referencia para alinearlo con el espacio latente del audio mezclado, evitando así las discrepancias. La evaluación en el conjunto de datos Libri2Mix revela que SoloSpeech supera a los métodos de vanguardia existentes tanto en inteligibilidad como en calidad, y demuestra un excelente rendimiento de generalización a datos no pertenecientes al dominio y a entornos del mundo real.