Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation

Created by
  • Haebom

作者

Jiajun He、Sadada Naoki、Miyazaki Koichi、Tomoki Toda

概要

本論文は、ドメイン固有の名前付きオブジェクト、特に同音異義語に困難を経験する自動音声認識(ASR)システムの問題を解決するために、Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation(PARCO)を提案します。 PARCOは、音素認識エンコーディング、対照的なオブジェクトの不明瞭性の除去、オブジェクトレベルの監督、階層的なオブジェクトのフィルタリングを統合して、音声の差別を改善し、完全なオブジェクト検索を保証し、不確実性の下で偽陽性を低減します。中国語AISHELL-1データセットで4.22%の文字エラー率(CER)、英語DATA2データセットで1,000個の妨害要素の下で11.14%の単語エラー率(WER)を達成し、既存の方法をかなり凌駕する性能を示しました。 THCHS-30やLibriSpeechなどのドメイン外のデータセットでも堅牢なパフォーマンスが向上しました。

Takeaways、Limitations

Takeaways:
音素レベルの情報を活用して,同音異義語問題を効果的に解決する新しいASRモデルを提示した。
対照学習と階層的フィルタリングにより、オブジェクト認識の精度と安定性が向上しました。
さまざまなデータセットで、従来の方法と比較して優れたパフォーマンスを検証しました。
Limitations:
提案モデルの計算の複雑さとリソース消費の分析が不足しています。
さまざまな言語とドメインの一般化性能に関するさらなる研究が必要です。
実際の環境での Robustness の追加評価が必要です。
👍