Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Created by
  • Haebom

作者

Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

概要

この研究は、拡散ベースのラージ言語モデル(DLLM)LLaDAを自動音声認識(ASR)に適用する経験的研究を提示します。 Whisper-LLaMAのトランスクリプトのための外部熟考ベースの処理モジュールとしてLLaDAを活用して、双方向アテンションとデノイジング機能を活用した様々なマスキング戦略(ランダムマスキング、低信頼度マスキング、半自動回帰戦略)を探求した。 LibriSpeechデータセットでは、最良のカスケードシステムは、test-clean / test-otherで2.25%/ 4.94%のワードエラー率(WER)を達成し、test-other分割でWhisper-LLaMAベースラインと比較して12.3%の相対的な改善を示しました。また、音響特徴なしでテキストのみを使用したLLaDAは精度向上に失敗し、音響条件埋め込みの重要性を強調した。さらに、拡散ベースおよび半自動回帰復号を使用してASR用のスタンドアロンデコーダとしてWhisper-LLaDAを評価し、ほとんどの実験設定ではWhisper-LLaMAベースラインよりも速い推論速度を達成しましたが、認識精度はわずかに低かった。

Takeaways、Limitations

Whisper-LLaMA transcriptsのための外部推論に基づくモジュールとしてのLLaDAの効果の実証(WER減少)
双方向アテンションとデノイジング機能の活用の重要性を強調
音響条件埋め込みの重要性の確認
拡散ベースと半自動回帰復号を用いたスタンドアロンデコーダとしてのWhisper-LLaDAの可能性の提示(高速推論速度)
スタンドアロンデコーダ使用時の認識精度がやや低い
この研究は特定のデータセット(LibriSpeech)に限定されており、他のデータセットで一般化するかどうかは追加の研究が必要です
簡易テキストLLaDAを使用した場合の精度向上の失敗は、音響情報を統合する方法のさらなる研究の必要性を提起する
👍