每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

FunAudio-ASR技术报告

Created by
  • Haebom

作者

安克宇、陈燕妮、邓冲、高长风、高志富、龚博、李贤刚、李亚斌、吕翔、季云杰、姜一恒、马斌、罗浩能、倪崇佳、潘泽旭、彭一平、彭振东、王佩瑶、王浩、王文、王武鹏、田飚、谭振涛、南阳、袁斌、叶杰平、于吉星、张庆林、邹坤、赵涵、赵胜奎、周敬仁

大纲

本文介绍了基于大规模语言模型 (LLM) 的自动语音识别 (ASR) 系统 FunAudio-ASR。FunAudio-ASR 协同融合了海量数据、海量模型容量、LLM 集成和强化学习,在多样化和复杂的语音识别场景中实现了最佳性能。它解决了现有基于 LLM 的 ASR 系统的幻听问题,并对其进行了优化以满足实际应用需求,包括流式传输功能、抗噪能力、代码切换和热词自定义。实验结果证明了 FunAudio-ASR 在实际环境中的有效性和鲁棒性,在开源基准测试和真实行业评测数据集上均达到了最佳性能 (SOTA)。

Takeaways,Limitations

Takeaways:
我们展示了一种结合大规模数据、大规模模型、LLM 集成和强化学习的新型 ASR 系统的有效性。
提出开发适用于实际工业环境的实用 ASR 系统的可能性。
一项缓解基于 LLM 的 ASR 系统幻觉问题的建议。
增强实际应用所需的功能,包括流媒体、抗噪和代码切换。
Limitations:
本文所提出的实际工业评估数据集的具体内容尚不明确。
缺乏对各因素(大数据、大模型、LLM集成、强化学习)对FunAudio-ASR性能提升的相对重要性的分析。
需要与其他最先进的 ASR 系统进行更全面的比较分析。
👍