Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TISDiSS: A Training-Time and Inference-Time Scalable Framework for Discriminative Source Separation

Created by
  • Haebom

저자

Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li

개요

본 논문은 음성, 음악, 오디오 처리 분야의 기본 과제인 소스 분리에 대해 다룹니다. 기존의 소스 분리 모델들은 성능 향상을 위해 네트워크 크기를 증가시켜 훈련 및 배포 비용이 증가하는 문제점을 가지고 있습니다. 본 논문에서는 훈련 시간 및 추론 시간 모두 확장 가능한 판별적 소스 분리 모델인 TISDiSS(Training-Time and Inference-Time Scalable Discriminative Source Separation)를 제안합니다. TISDiSS는 초기 분할 다중 손실 감독, 공유 매개변수 설계, 동적 추론 반복을 통합하여 추론 깊이를 조정함으로써 속도와 성능 간의 유연한 절충을 가능하게 합니다. 추론 반복 횟수를 늘려 훈련하면 얕은 추론 성능이 향상되어 저지연 응용 프로그램에 유리합니다. 표준 음성 분리 벤치마크 실험을 통해 매개변수 수를 줄이면서 최첨단 성능을 달성함을 보여주며, 적응형 소스 분리를 위한 확장 가능하고 실용적인 프레임워크임을 입증합니다. 코드는 https://github.com/WingSingFung/TISDiSS 에서 이용 가능합니다.

시사점, 한계점

시사점:
훈련 및 추론 시간 모두 확장 가능한 소스 분리 프레임워크 TISDiSS 제안
추론 깊이 조절을 통한 유연한 속도-성능 절충 가능
얕은 추론 성능 향상을 통한 저지연 응용 프로그램에 적합
매개변수 수 감소에도 불구하고 최첨단 성능 달성
공개된 코드를 통해 재현성 및 활용성 증대
한계점:
제시된 벤치마크 외 다른 데이터셋이나 응용 분야에 대한 일반화 성능 검증 필요
다양한 유형의 소스 분리 문제(예: 음악 소스 분리)에 대한 성능 평가 추가 필요
TISDiSS의 초기 분할 다중 손실 감독, 공유 매개변수 설계, 동적 추론 반복 등의 구체적인 메커니즘에 대한 더 자세한 설명 필요
👍