SoloSpeech는 여러 화자의 음성 혼합에서 목표 화자의 음성을 분리하는 목표 음성 추출(TSE)을 위한 새로운 계단식 생성 파이프라인입니다. 기존의 판별 모델 기반 TSE 방법들이 인지 품질은 높지만 인공물 발생, 자연스러움 저하, 훈련 및 테스트 환경 불일치에 대한 민감성 등의 문제점을 가지는 것과 달리, SoloSpeech는 압축, 추출, 재구성, 수정 과정을 통합하여 이러한 문제점들을 해결합니다. 특히, 화자 임베딩을 사용하지 않는 목표 추출기를 사용하여 큐 오디오의 잠재 공간과 혼합 오디오의 잠재 공간을 정렬함으로써 불일치를 방지합니다. Libri2Mix 데이터셋에서 평가한 결과, SoloSpeech는 목표 음성 추출 및 음성 분리 작업에서 최첨단의 지능성과 품질을 달성했으며, 도메인 외 데이터 및 실제 시나리오에서 뛰어난 일반화 성능을 보였습니다.