Sign In

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Created by
  • Haebom
Category
Empty

저자

Mohan Xu, Kai Li, Guo Chen, Xiaolin Hu

개요

본 논문은 저지연 음성 처리 시스템을 위한 고효율 음성 분리 모델인 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)를 제안합니다. TIGER는 주파수 대역을 나누고 주파수 정보를 압축하는 사전 지식을 활용하며, 다중 스케일 선택적 어텐션 모듈과 전 주파수 프레임 어텐션 모듈을 통해 문맥 정보를 추출합니다. 또한, 더욱 현실적인 음향 환경에서 음성 분리 모델의 성능을 평가하기 위해 잡음과 현실적인 잔향(물체 차폐 및 재료 특성 고려)이 포함된 새로운 데이터셋 EchoSet을 제시합니다. 실험 결과, EchoSet으로 학습된 모델은 다른 데이터셋으로 학습된 모델보다 일반화 성능이 우수하며, TIGER는 기존 최고 성능 모델인 TF-GridNet을 능가하는 성능을 달성하면서 파라미터 수를 94.3%, MAC 연산 수를 95.3% 감소시켰습니다.

시사점, 한계점

시사점:
고효율 저지연 음성 분리 모델 TIGER 제안으로 실시간 음성 처리 시스템에 적용 가능성 확대.
현실적인 음향 환경을 반영한 새로운 데이터셋 EchoSet 제시로 음성 분리 모델의 실용성 향상 및 성능 평가의 신뢰성 증대.
TIGER 모델은 기존 최고 성능 모델 대비 파라미터 및 연산량을 획기적으로 줄이면서 성능 향상을 달성.
한계점:
EchoSet 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
TIGER 모델의 성능 향상이 모든 유형의 음성 데이터 및 음향 환경에서 일관되게 나타나는지 추가적인 실험 필요.
TIGER 모델의 구조적 복잡성에 대한 분석 및 단순화 가능성에 대한 추가 연구 필요.
👍