Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion

Created by
  • Haebom
Category
Empty

저자

Behnaz Bahmei, Siamak Arzanpour, Elina Birmingham

개요

본 논문은 실시간 환경에서 단일 채널 잡음 억제를 위한 새로운 트랜스포머 기반 학습 프레임워크를 제시한다. 비정상 잡음 (예: 개 짖는 소리, 아기 울음소리)이 있는 실제 환경에서 기존 딥러닝 네트워크의 성능 저하 문제를 해결하기 위해, 하이브리드 ViT 프레임워크를 사용하여 이중 입력 음향-이미지 특징 융합을 제안한다. 제안된 프레임워크는 계산 효율적이며, 임베디드 장치에 적합하도록 설계되었다. Librispeech 데이터셋을 깨끗한 음성 소스로, UrbanSound8K 및 Google Audioset 데이터셋을 잡음 소스로 사용하여 실험한 결과, PESQ, STOI, Seg SNR, LLR 측정에서 잡음 감소, 음성 명료도 및 지각적 품질이 크게 향상되었으며, 깨끗한 기준 신호에 근접하는 성능을 보였다.

시사점, 한계점

시사점:
실시간 환경에서 비정상 잡음에 효과적인 잡음 억제 기술 제시.
계산 효율성이 높아 임베디드 장치에 적용 가능.
다양한 잡음 환경에서의 성능 검증을 위해 여러 데이터셋 사용.
PESQ, STOI, Seg SNR, LLR과 같은 표준적인 음질 측정 지표 사용.
깨끗한 음성에 근접하는 우수한 성능 달성.
한계점:
구체적인 하이브리드 ViT 프레임워크의 구조 및 설계에 대한 상세 설명 부족.
실제 환경에서의 다양한 잡음 유형 및 강도에 대한 일반화 성능 평가 필요.
다른 최신 잡음 억제 방법과의 비교 분석 부족.
자원 제약적인 임베디드 장치에서의 실제 구현 및 성능 검증에 대한 정보 부족.
👍