본 논문은 다중 화자 혼합 음성에서 목표 화자의 음성을 분리하는 목표 음성 추출(TSE) 문제를 다룹니다. 기존의 TSE 방법들은 높은 지각 품질을 제공하는 차별적 모델을 주로 사용하지만, 인공물 발생, 자연스러움 저하, 훈련 및 테스트 환경 간 불일치에 대한 민감성 등의 문제점을 가지고 있습니다. 반면, 생성적 모델은 지각 품질과 명료도가 낮다는 단점이 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 압축, 추출, 재구성, 수정 과정을 통합한 새로운 계층적 생성 파이프라인인 SoloSpeech를 제안합니다. SoloSpeech는 큐 오디오의 잠재 공간으로부터 조건 정보를 활용하여 혼합 음성의 잠재 공간과 정렬함으로써 불일치를 방지하는 화자 임베딩이 없는 목표 추출기를 특징으로 합니다. Libri2Mix 데이터셋에서 평가한 결과, SoloSpeech는 목표 음성 추출 및 음성 분리 작업에서 최첨단의 명료도와 품질을 달성하였으며, 도메인 외 데이터 및 실제 환경에서 뛰어난 일반화 성능을 보였습니다.