本論文では、反響のある音声信号から無反響音声とルームインパルス応答(RIR)を同時に推定する新しい方法であるVINP(Variational Inference with Neural speech Prior)を提案します。 VINPは、時間周波数領域で確率的信号モデルを構築し、ニューラルネットワークベースの無響音声事前分布を利用する変分ベイズ推論(VBI)フレームワークに基づいています。従来のシングルチャンネル残響除去方法とは異なり、自動音声認識(ASR)システムに効果的であり、無響音声とRIRの最大事後確率(MAP)と最大尤度(ML)推定を通じて波形を推定します。実験の結果、MOS(Mean Opinion Score)とWER(Word Error Rate)の側面で最先端の性能を達成し、RT60(Reverberation Time at 60dB)推定およびDRR(Direct-to-Reverberation Ratio)推定でも優れた性能を示しました。コードとオーディオサンプルはオンラインで入手できます。