본 논문은 기존의 단일 단계 추론 방식 대신, 사전 훈련된 단일 단계 오디오 분리 모델을 활용하여 다단계 분리 과정을 제안합니다. 입력 혼합 신호와 이전 단계의 분리 결과를 최적으로 혼합하여 반복적으로 분리를 수행하는 간단하지만 효과적인 추론 방법을 제시합니다. 각 단계에서 지표를 최대화하여 최적의 혼합 비율을 결정하며, 이 방법이 단일 단계 추론보다 항상 성능 향상을 가져온다는 것을 증명하고, 모델의 부드러움과 지표의 강건성에 기반한 오차 한계를 제공합니다. 또한, 이 방법을 잡음과 깨끗한 분포 사이의 선형 보간 경로를 따라 잡음 제거와 연결하는 이론적 분석을 제공하며, 이를 잡음 제거 확산 브리지 모델과 연결짓습니다. 실험 결과, 다단계 분리 접근 방식이 음성 향상 및 음악 소스 분리 작업 모두에서 단일 단계 추론보다 일관되게 우수한 성능을 보이며, 더 큰 모델을 훈련하거나 더 많은 데이터를 사용하거나 다단계 훈련 목표를 사용하는 것과 유사한 성능 향상을 달성할 수 있음을 보여줍니다.