음악 믹스에서 개별 요소를 추출하는 것은 음악 제작 및 연습에 유용한 도구입니다. 믹스 스펙트로그램을 개별 소스로 마스킹하거나 변환하도록 최적화된 신경망이 주요 접근 방식이었지만, 음악 신호의 소스 중첩 및 상관 관계는 내재적인 어려움을 야기합니다. 또한, 이러한 시스템을 훈련하려면 믹스의 모든 소스에 액세스해야 하지만 이는 복잡합니다. 이러한 문제를 생성 방식으로 해결하려는 시도가 있지만, 분리 성능과 추론 효율성은 여전히 제한적입니다. 이 연구에서는 이러한 격차를 해소하기 위해 확산 모델의 잠재력을 연구하며, 훈련을 위해 고립된 보컬과 믹스의 해당 쌍만 사용하는 생성적 보컬 분리에 중점을 둡니다. 창작 워크플로우에 맞춰, 잠재 확산을 활용합니다: 시스템은 콤팩트한 잠재 공간에 인코딩된 샘플을 생성하고, 이후 오디오로 디코딩합니다. 이를 통해 효율적인 최적화와 더 빠른 추론이 가능합니다. 우리의 시스템은 공개 데이터만 사용하여 훈련되었습니다. 우리는 기존의 생성적 분리 시스템보다 뛰어나며, 신호 품질 측정 및 간섭 제거에서 비교 대상인 비생성적 시스템과 동등한 수준을 달성합니다. 우리는 잠재 인코더에 대한 잡음 견고성 연구를 제공하여 작업에 대한 잠재력을 통찰력 있게 보여줍니다. 이 주제에 대한 추가 연구를 위한 모듈형 툴킷을 출시합니다.