음악 혼합물에서 개별 요소를 분리하는 것은 음악 분석 및 실습에 필수적인 과정이다. 일반적으로 혼합물의 시간-주파수 표현을 마스킹하거나 변환하도록 최적화된 신경망을 사용하여 이 문제를 해결하지만, 생성적 확산 모델의 유연성과 일반화 능력은 이 복잡한 작업에 대한 새로운 종류의 솔루션을 제공하고 있다. 본 연구에서는, 해당 혼합물을 조건으로 하여 솔로 보컬을 생성하도록 훈련된 확산 모델을 사용하여 실제 음악 녹음에서 노래 목소리를 분리하는 것을 탐구한다. 본 접근 방식은 이전의 생성 시스템을 개선하며, 보조 데이터로 훈련된 경우 비생성적 기준선에 대해 경쟁적인 객관적 점수를 달성한다. 확산 샘플링의 반복적 특성은 사용자가 품질-효율성 트레이드 오프를 제어하고, 필요할 때 출력을 개선할 수 있게 한다. 사용자 구성 가능 매개변수의 영향을 강조하는 샘플링 알고리즘의 어블레이션 연구를 제시한다.