Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention

Created by
  • Haebom
Category
Empty

저자

Xinxin Tang, Bin Qin, Yufang Li

개요

IMSE는 음성 향상 작업을 위한 초경량 네트워크로, 자원 제약적인 장치에서 경량 설계와 고성능 간의 균형을 맞추는 것을 목표로 한다. MUSE를 개선하기 위해, Amplitude-Aware Linear Attention (MALA) 및 Inception Depthwise Convolution (IDConv)을 도입하여 파라미터 수를 줄이면서 성능을 유지한다. VoiceBank+DEMAND 데이터셋에서 MUSE 대비 16.8% 파라미터 감소 (0.513M에서 0.427M)를 달성하며 PESQ 지표에서 경쟁력 있는 성능(3.373)을 보였다.

시사점, 한계점

MUSE 모델의 효율성 병목 현상을 해결: MET 모듈을 MALA로 대체하여 효율적인 글로벌 모델링 달성. DE 모듈을 IDConv로 대체하여 파라미터 중복성 감소.
VoiceBank+DEMAND 데이터셋에서 MUSE 대비 파라미터 수 감소 및 경쟁력 있는 성능 달성.
초경량 음성 향상 모델의 새로운 기준 제시.
구체적인 한계점은 논문에 명시되지 않음. (제공된 정보에 한하여)
👍