Bài báo này đề cập đến vấn đề Trích xuất giọng nói mục tiêu (TSE), bao gồm việc tách giọng nói của một người nói cụ thể khỏi hỗn hợp giọng nói của nhiều người nói. Các phương pháp TSE hiện có chủ yếu sử dụng các mô hình phân biệt, mang lại chất lượng nhận dạng cao. Tuy nhiên, chúng gặp phải các vấn đề như hiện tượng nhiễu, giảm độ tự nhiên và nhạy cảm với sự không khớp giữa môi trường huấn luyện và môi trường kiểm tra. Mặt khác, các mô hình sinh lại gặp phải vấn đề về chất lượng nhận dạng và độ rõ ràng thấp. Trong bài báo này, chúng tôi đề xuất SoloSpeech, một quy trình tạo tầng mới tích hợp các quy trình nén, trích xuất, tái tạo và hiệu chỉnh. Thay vì dựa vào nhúng giọng nói, SoloSpeech sử dụng thông tin có điều kiện từ không gian tiềm ẩn của âm thanh tín hiệu để căn chỉnh nó với không gian tiềm ẩn của âm thanh hỗn hợp, do đó tránh được sự không khớp. Đánh giá trên tập dữ liệu Libri2Mix cho thấy SoloSpeech vượt trội hơn các phương pháp tiên tiến hiện có về cả độ rõ ràng và chất lượng, đồng thời thể hiện hiệu suất tổng quát hóa tuyệt vời đối với dữ liệu phi miền và các bối cảnh thực tế.