본 논문은 자연어 질의를 이용한 목표 오디오 소스 분리에 대한 새로운 방법인 HSM-TSS(Hierarchical Semantic-guided Multi-stage Target Source Separation)를 제안합니다. 기존 방법들의 단일 단계 아키텍처에서의 음향-텍스트 정렬과 의미 기반 분리의 어려움, 그리고 비효율적인 교차 모드 학습과 분리를 보완하기 위한 대규모 정확하게 라벨링된 훈련 데이터 의존성 문제를 해결하기 위해, HSM-TSS는 과제를 전역-지역 의미 기반 특징 분리와 구조 보존 음향 재구성으로 분리하는 계층적 분해 프레임워크를 제시합니다. 전역 및 지역 의미 특징 공간에서 작동하는 2단계 의미 분리 메커니즘을 도입하여, 먼저 텍스트 질의와 정렬된 전역 의미 특징 공간을 통해 전역 의미 분리를 수행하고, 예측된 전역 특징을 조건으로 시간-주파수 구조를 보존하는 AudioMAE 특징에 대한 2단계 지역 의미 분리를 수행한 후 음향 재구성을 합니다. 또한 임의의 텍스트 질의를 구조화된 연산(추출 또는 제거)과 오디오 설명으로 파싱하는 명령어 처리 파이프라인을 제안하여 유연한 사운드 조작을 가능하게 합니다. 결과적으로 데이터 효율적인 훈련으로 최첨단 분리 성능을 달성하면서 복잡한 청각 장면에서 질의와의 우수한 의미 일관성을 유지합니다.