Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Investigation of Incorporating Mamba for Speech Enhancement

Created by
  • Haebom

저자

Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao

SEMamba: Speech Enhancement with Mamba

개요

본 연구는 최근 제안된 주목 메커니즘이 없는 확장 가능한 상태 공간 모델(SSM)인 Mamba를 음성 향상(SE) 작업에 활용하는 것을 목표로 한다. 특히, Mamba를 사용하여 기본, 고급, 인과적, 비인과적 구성과 같이 다양한 regression 기반 SE 모델(SEMamba)을 배포한다. 또한, 신호 레벨 거리 또는 메트릭 지향에 기반한 손실 함수를 고려한다. 실험 결과에 따르면, SEMamba는 고급 비인과적 구성에서 VoiceBank-DEMAND 데이터셋에서 경쟁력 있는 PESQ 3.55를 달성한다. 또한, SEMamba를 Perceptual Contrast Stretching(PCS)과 결합했을 때 새로운 최고 PESQ 3.69가 보고되었다. 변환 기반 SE 솔루션과 비교하여 고급 비인과적 구성에서 최대 ~12%의 FLOPs 감소가 관찰되었다. 마지막으로, SEMamba는 자동 음성 인식(ASR) 전에 전처리 단계로 사용될 수 있으며, 최근 SE 솔루션에 비해 경쟁력 있는 성능을 보인다.

시사점, 한계점

Mamba를 활용한 음성 향상 모델 (SEMamba) 제안 및 다양한 구성 실험 진행
VoiceBank-DEMAND 데이터셋에서 경쟁력 있는 PESQ 점수 달성 (3.55)
PCS와 결합하여 SOTA PESQ 달성 (3.69)
변환 기반 모델 대비 FLOPs 감소 (최대 ~12%)
ASR 전처리 단계로서의 활용 가능성 제시
구체적인 한계점은 논문에서 직접적으로 언급되지 않음 (향후 연구를 통해 보완 필요)
👍