每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Fun-ASR技术报告

Created by
  • Haebom

作者

安克宇、陈燕妮、邓冲、高长风、高志富、龚博、李贤刚、李亚斌、吕翔、季云杰、姜一恒、马斌、罗浩能、倪崇佳、潘泽旭、彭一平、彭振东、王佩瑶、王浩、王文、王武鹏、田飚、谭振涛、南阳、袁斌、叶杰平、于吉星、张庆林、邹坤、赵涵、赵胜奎、周敬仁

大纲

本文介绍了基于 LLM 的 ASR 系统 Fun-ASR,该系统协同结合了大规模数据、模型扩展、大规模语言模型 (LLM) 集成和强化学习,在各种语音识别场景中实现了最佳性能。具体而言,它针对实际应用需求进行了优化,例如流式传输功能、抗噪能力、代码切换和热词自定义。在实际工业数据集上,Fun-ASR 的表现优于现有的基于 LLM 的 ASR 系统。

Takeaways, Limitations

开发实用的语音识别系统,在现实世界的工业数据集上表现出卓越的性能。
利用大规模语言模型 (LLM) 提高语音识别性能。
针对实际应用的关键功能(如流媒体、抗噪和代码切换)进行了优化。
其中没有提到LLM的幻觉问题,也没有提供解决该问题的具体解决方案。
缺乏与其他基于 LLM 的 ASR 系统直接比较的信息。
👍