Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs

Created by
  • Haebom

作者

Yutong Liu, Ziyue Zhang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi

概要

本論文は,大規模言語モデル(LLM)を活用したヒューマン・ヒアリング認知に触発された反復誤り訂正フレームワークであるLIR‐ASRを提案する。 LIR-ASRは、「リスニング - 想像する - スタイリッシュにする」戦略を通じて音声バリアントを作成し、コンテキストでこれを改善します。局所的な最適値に陥ることを防ぐために、有限状態機械(FSM)を使用したヒューリスティック最適化と意味的忠実度を維持するためのルールベースの制約が導入されました。英語と中国語のASR出力の実験結果、LIR-ASRはベースラインに比べてCER / WERを平均1.5%ポイントまで減少させ、転写精度を大幅に向上させることを示しています。

Takeaways、Limitations

Takeaways:
LLMベースの反復エラー訂正フレームワークは、ASRシステムの精度を向上させることができることを示しています。
ヒューマン聴覚認知に触発された「リスニング - 想像する - スタイリッシュにする」戦略は、ASRエラーの修正に効果的であることを示唆しています。
FSMベースのヒューリスティック最適化とルールベースの制約により、パフォーマンスの向上と意味的な一貫性の維持を達成できることを示しています。
英語と中国語の両方の言語の実験結果を通じ、LIR-ASRの一般化の可能性を示唆する。
Limitations:
提案された方法のパフォーマンス向上が特定のデータセットとモデルに限定される可能性があります。
ヒューリスティック最適化とルールベースの制約の設計は、特定の言語またはタスクに合わせて調整する必要があるかもしれません。
LLM の計算コストと処理時間は、実際の適用に制約を与える可能性があります。
様々なASRシステムとの互換性とスケーラビリティに関するさらなる研究が必要です。
👍