Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

Created by
  • Haebom

作者

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

概要

本論文は、文脈認識自動音声認識(ASR)で特定のキーワードを認識する問題を扱います。従来のコンテキスト偏向技術は、追加のモデルトレーニングが必要、デコード速度が遅い、ASRシステムタイプの選択に制約がある限界を持っています。本論文では、CTC、Transducer、Attention Encoder-Decoderモデルなど、主要なASRモデルタイプをすべてサポートする汎用的なASRコンテキスト偏向フレームワークを提案する。このフレームワークは、GPUアクセラレーションベースのワードブーストツリーを使用して、最大20,000個のキーワードを使用しても、greedyおよびbeam searchのデコードで速度を低下させることなくshallow fusionモードで動作します。実験の結果、提案された方法は、従来のオープンソースコンテキスト偏向技術よりも精度とデコード速度の点で優れた性能を示した。提案されたコンテキスト偏向フレームワークは、NeMoツールキットの一部としてオープンソースとして公開されました。

Takeaways、Limitations

Takeaways:
さまざまなASRモデルタイプに適用可能な汎用コンテキスト偏向フレームワークの提示
GPU アクセラレーションにより、速度を落とすことなく大量のキーワード処理が可能
従来方式と比較して高い精度と復号化速度を達成
オープンソースで公開され、アクセシビリティを向上
Limitations:
本稿で提示されているフレームワークのパフォーマンスは、特定のデータセットとキーワードセットの結果であり、他の条件ではパフォーマンスが異なる可能性があります。
さまざまなASRモデルに適用可能ですが、モデルタイプに応じて最適化の余地が存在する可能性があります。
キーワード以外のコンテキスト情報の活用に関する考慮は不足している。
👍