每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

聆听、想象与精炼:基于 LLM 的启发式优化 ASR 校正框架

Created by
  • Haebom

作者

刘雨桐、张子跃、于永斌、王香香、蔡玉清、尼玛扎西

大纲

本文提出了 LIR-ASR,这是一个受人类听觉感知启发、利用大规模语言模型 (LLM) 的迭代纠错框架。LIR-ASR 采用“聆听-想象-改进”策略生成语音变体,并根据上下文进行改进。为了避免陷入局部最优,LIR-ASR 采用有限状态机 (FSM) 进行启发式优化,并结合基于规则的约束来保持语义保真度。在英语和中文 ASR 输出上的实验结果表明,LIR-ASR 显著提高了转录准确率,与基线相比,CER/WER 平均降低了 1.5 个百分点。

Takeaways, Limitations

Takeaways:
我们证明,使用基于 LLM 的迭代纠错框架可以提高 ASR 系统的准确性。
我们提出,受人类听觉感知启发的“聆听-想象-改进”策略可以有效纠正 ASR 错误。
我们证明基于 FSM 的启发式优化和基于规则的约束可以实现性能改进和语义一致性。
英语和中文的实验结果证明了 LIR-ASR 的通用性。
Limitations:
所提出方法的性能改进可能仅限于特定的数据集和模型。
启发式优化和基于规则的约束的设计可能需要针对特定​​的语言或任务进行定制。
LLM的计算成本和处理时间可能会限制其实际应用。
需要进一步研究与各种 ASR 系统的兼容性和可扩展性。
👍