Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AS-ASR: A Lightweight Framework for Aphasia-Specific Automatic Speech Recognition

Created by
  • Haebom

作者

Chen Bao, Chuanbing Huo, Qinyu Chen, Chang Gao

概要

AS-ASRは、低資源環境のエッジデバイスで使用できるようにWhisper-tinyベースに設計された軽量の失語症に特化した音声認識フレームワークです。標準的な音声と失語症の音声を様々な比率で体系的に組み合わせるハイブリッド学習戦略と、ノイズの多い失語症の音声記録を改善し、監督の質を向上させるGPT-4ベースの参照改善方法を導入した。さまざまなデータミキシング構成と評価設定の広範な実験を行った結果、微調整されたモデルはゼロショット基準モデルよりも失語症の音声のWERを30%以上減少させながら、標準音声のパフォーマンスも維持することがわかりました。提案されたフレームワークは、実際の環境における言語障害音声認識のためのスケーラブルで効率的なソリューションを提供します。

Takeaways、Limitations

Takeaways:
低資源環境のエッジデバイスで失語症音声認識のための効率的でスケーラブルなソリューションを提供します。
ハイブリッド学習戦略とGPT-4ベースの参照改善方法により、失語症の音声認識性能が大幅に向上しました。
失語症の音声に対するWERを30%以上減少させながら、標準音声に対する性能も維持します。
Limitations:
使用されるデータセットとモデルの特性によって、パフォーマンスが異なる場合があります。
様々なタイプの失語症に対する一般化性能評価がさらに必要である。
GPT-4 ベースの参照改善方法の計算コストが高い場合があります。
👍