본 논문은 반향이 있는 음성 신호(reverberant speech)로부터 무반향 음성(anechoic speech)과 룸 임펄스 응답(RIR)을 동시에 추정하는 새로운 방법인 VINP(Variational Inference with Neural speech Prior)를 제안합니다. VINP는 시간-주파수 영역에서 확률적 신호 모델을 구축하고, 신경망 기반의 무반향 음성 사전 분포를 활용하는 변분 베이즈 추론(VBI) 프레임워크를 기반으로 합니다. 기존의 단일 채널 잔향 제거 방법과 달리, 자동 음성 인식(ASR) 시스템에 효과적이며, 무반향 음성과 RIR의 최대 사후 확률(MAP) 및 최대 우도(ML) 추정을 통해 파형을 추정합니다. 실험 결과, MOS(Mean Opinion Score)와 WER(Word Error Rate) 측면에서 최첨단 성능을 달성하였고, RT60(Reverberation Time at 60dB) 추정 및 DRR(Direct-to-Reverberation Ratio) 추정에서도 우수한 성능을 보였습니다. 코드와 오디오 샘플은 온라인에서 이용 가능합니다.