# VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification

### 저자

Pengyu Wang, Ying Fang, Xiaofei Li

### 개요

본 논문은 잔향이 포함된 음성 신호로부터 무향 음성과 방향충격응답(RIR)을 동시에 추정하는 새로운 변분 베이지안 추론(VBI) 기반 프레임워크인 VINP(Variational Inference with Neural speech Prior)를 제안합니다.  VINP는 시간-주파수 영역에서 확률적 신호 모델을 구축하고, 임의의 판별적 탈잔향 심층 신경망(DNN)을 이용하여 무향 음성의 사전 분포를 예측하는 것이 특징입니다. 잔향 음성과 무향 음성 사전 분포를 통합하여 최대사후확률(MAP) 추정과 최대우도(ML) 추정을 통해 무향 음성 스펙트럼과 CTF 필터를 추정하고, 이를 통해 무향 음성과 RIR의 파형을 추정합니다.  실험 결과, VINP는 인간의 지각과 관련된 대부분의 지표에서 최첨단 수준의 성능을 달성했으며, 특히 ASR 관련 지표에서는 명백한 최첨단(SOTA) 성능을 보였습니다. 또한, 맹목적인 RIR 식별에서도 RT60과 DRR 추정에 있어 SOTA 수준의 성능을 달성했습니다. 코드와 오디오 샘플은 온라인에서 이용 가능합니다.

### 시사점, 한계점

- **시사점:**

    - 잔향 음성으로부터 무향 음성과 RIR을 동시에 추정하는 새로운 VBI 기반 프레임워크 VINP 제안.

    - DNN을 활용하여 무향 음성의 사전 분포를 예측하는 새로운 접근 방식 제시.

    - 인간 지각 및 ASR 관련 지표에서 SOTA 성능 달성.

    - 맹목적인 RIR 식별에서 RT60 및 DRR 추정 성능 향상.

    - 코드와 오디오 샘플 공개를 통한 접근성 향상.

- **한계점:**

    - 명시적인 한계점이 논문에서 제시되지 않음.  추가적인 실험이나 분석을 통해 한계점을 규명할 필요가 있음. (예: 특정 유형의 잔향 또는 잡음에 대한 취약성, 계산 비용 등)

[PDF 보기](https://arxiv.org/pdf/2502.07205)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
