본 논문은 사전 훈련된 확산 모델을 활용하여 추가적인 훈련 없이 제로샷 언어 질의 오디오 분리(LASS)를 수행하는 훈련 없는 프레임워크를 제시합니다. 기존의 LASS 방법들이 작업 특화 훈련에 의존하는 것과 달리, 오디오 생성을 위해 설계된 사전 훈련된 확산 모델이 본질적으로 분리 작업을 수행할 수 있는지 탐구합니다. 단순한 적용의 한계를 분석하여 모달리티 특유의 문제점을 파악하고, 이를 해결하기 위해 스펙트로그램 마스크를 정밀하게 입력에 맞춰 개선하는 테스트 시간 최적화 프레임워크인 DGMO(Diffusion-Guided Mask Optimization)를 제안합니다. DGMO는 사전 훈련된 확산 모델을 효과적으로 재활용하여 작업 특화 감독 없이 경쟁력 있는 성능을 달성합니다. 이 연구는 확산 모델의 적용 범위를 생성 이상으로 확장하고, 제로샷 오디오 분리에 대한 새로운 패러다임을 제시합니다.