本文介绍了基于大规模语言模型 (LLM) 的自动语音识别 (ASR) 系统 FunAudio-ASR。FunAudio-ASR 协同融合了海量数据、海量模型容量、LLM 集成和强化学习,在多样化和复杂的语音识别场景中实现了最佳性能。它解决了现有基于 LLM 的 ASR 系统的幻听问题,并对其进行了优化以满足实际应用需求,包括流式传输功能、抗噪能力、代码切换和热词自定义。实验结果证明了 FunAudio-ASR 在实际环境中的有效性和鲁棒性,在开源基准测试和真实行业评测数据集上均达到了最佳性能 (SOTA)。