Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

Created by
  • Haebom

作者

ユンシクキム、ヨンヨンチョン

概要

本論文は、ボディ伝導マイク信号(BMS)と音響マイク信号(AMS)を組み合わせたマルチモーダルフレームワークを提案します。 BMSはノイズに強いが高周波情報損失という欠点があり、AMSは高周波情報は豊富であるがノイズに対して脆弱である。本研究では、BMSを改善するマッピングベースのモデルとAMSのノイズを排除するマスキングベースのモデルの2つのネットワークを使用して、これらの欠点を補完します。両方のモデルは、局所的な雑音条件に適応する動的融合メカニズムを介して統合され、各モダリティの強みを最適に活用します。 TAPSデータセットにDNS-2023ノイズクリップを追加し、客観的な音声品質指標を使用した評価を行った結果、さまざまなノイズ環境でシングルモーダル方式よりも優れたパフォーマンスが得られました。

Takeaways、Limitations

Takeaways:
ボディ伝導マイクと音響マイクの利点を組み合わせることで、ノイズ除去と高周波情報の復元を同時に達成する新しいマルチモーダルフレームワークの提示。
マッピングベースとマスキングベースのネットワークを効果的に活用することで、従来の単純な特徴結合方式よりも向上したパフォーマンスを実現します。
動的融合メカニズムによる多様な雑音環境への適応力を高める
客観的な音声品質評価結果を通して提案された方法の卓越性を検証した。
Limitations:
使用されたデータセット(TAPS + DNS-2023)の一般化パフォーマンスの追加検証が必要です。
実際の環境でのパフォーマンス評価と追加のノイズタイプのロバストネス評価が必要です。
モデルの複雑さと計算コストを考慮する必要性
👍