本論文は、ボディ伝導マイク信号(BMS)と音響マイク信号(AMS)を組み合わせたマルチモーダルフレームワークを提案します。 BMSはノイズに強いが高周波情報損失という欠点があり、AMSは高周波情報は豊富であるがノイズに対して脆弱である。本研究では、BMSを改善するマッピングベースのモデルとAMSのノイズを排除するマスキングベースのモデルの2つのネットワークを使用して、これらの欠点を補完します。両方のモデルは、局所的な雑音条件に適応する動的融合メカニズムを介して統合され、各モダリティの強みを最適に活用します。 TAPSデータセットにDNS-2023ノイズクリップを追加し、客観的な音声品質指標を使用した評価を行った結果、さまざまなノイズ環境でシングルモーダル方式よりも優れたパフォーマンスが得られました。