VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification

작성자

Haebom

카테고리

비어 있음

저자

Pengyu Wang, Ying Fang, Xiaofei Li

개요

본 논문은 잔향이 포함된 음성 신호로부터 무향 음성과 방향충격응답(RIR)을 동시에 추정하는 새로운 변분 베이지안 추론(VBI) 기반 프레임워크인 VINP(Variational Inference with Neural speech Prior)를 제안합니다. VINP는 시간-주파수 영역에서 확률적 신호 모델을 구축하고, 임의의 판별적 탈잔향 심층 신경망(DNN)을 이용하여 무향 음성의 사전 분포를 예측하는 것이 특징입니다. 잔향 음성과 무향 음성 사전 분포를 통합하여 최대사후확률(MAP) 추정과 최대우도(ML) 추정을 통해 무향 음성 스펙트럼과 CTF 필터를 추정하고, 이를 통해 무향 음성과 RIR의 파형을 추정합니다. 실험 결과, VINP는 인간의 지각과 관련된 대부분의 지표에서 최첨단 수준의 성능을 달성했으며, 특히 ASR 관련 지표에서는 명백한 최첨단(SOTA) 성능을 보였습니다. 또한, 맹목적인 RIR 식별에서도 RT60과 DRR 추정에 있어 SOTA 수준의 성능을 달성했습니다. 코드와 오디오 샘플은 온라인에서 이용 가능합니다.