Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From KAN to GR-KAN: Advancing Speech Enhancement with KAN-Based Methodology

Created by
  • Haebom

저자

Haoyang Li, Yuchen Hu, Chen Chen, Sabato Marco Siniscalchi, Songting Liu, Eng Siong Chng

개요

본 논문은 고품질 음성 향상을 위해 기존 활성화 함수의 한계를 극복하고자, 다중 스케일 구조를 효과적으로 포착하는 Kolmogorov-Arnold Networks (KAN)의 변형인 Group-Rational KAN (GR-KAN)을 제안합니다. 시간-주파수 영역의 MP-SENet과 시간 영역의 Demucs 모델에 GR-KAN을 적용하여 실험을 진행하였으며, Voicebank-DEMAND 데이터셋에서 기존 모델보다 최대 4배 적은 파라미터로 최대 0.1 PESQ 향상을 달성했습니다. 기존 KAN은 확장성 문제로 MP-SENet 성능 개선에는 실패했지만, 소규모 신호 모델링 작업에서는 MLP보다 우수한 성능을 보였습니다. 본 연구는 시간 및 주파수 영역 모두에서 KAN 기반 방법의 일관된 성능 향상을 처음으로 보여주며, GR-KAN이 음성 향상을 위한 유망한 대안임을 제시합니다.

시사점, 한계점

시사점:
GR-KAN을 활용하여 기존 DNN 기반 음성 향상 모델의 성능을 향상시킬 수 있음을 보임.
기존 KAN의 확장성 문제를 해결한 GR-KAN의 효율성을 입증.
시간 및 주파수 영역 모두에서 일관된 성능 향상을 달성.
적은 파라미터로 높은 성능을 달성하여 경량화에 기여.
한계점:
Voicebank-DEMAND 데이터셋에 대한 결과만 제시되어 다른 데이터셋에 대한 일반화 성능은 추가 연구가 필요함.
GR-KAN의 성능 향상이 모든 음성 향상 모델에 적용될 수 있는지에 대한 추가 연구가 필요함.
KAN의 확장성 문제가 완전히 해결되었는지에 대한 추가적인 검증이 필요함.
👍