Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FunAudio-ASR Technical Report

Created by
  • Haebom

저자

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

개요

본 논문은 대규모 언어 모델(LLM) 기반 자동 음성 인식(ASR) 시스템인 FunAudio-ASR을 제시합니다. FunAudio-ASR은 방대한 데이터, 대규모 모델 용량, LLM 통합 및 강화 학습을 시너지 효과적으로 결합하여 다양하고 복잡한 음성 인식 시나리오에서 최첨단 성능을 달성합니다. 기존 LLM 기반 ASR 시스템의 환각(hallucination) 문제를 해결하기 위해 노력하였으며, 스트리밍 기능, 잡음 내성, 코드 전환, 핫워드 사용자 지정 등 실제 애플리케이션 요구사항을 충족하도록 최적화되었습니다. 실험 결과, FunAudio-ASR은 오픈소스 벤치마크뿐 아니라 실제 산업 평가 데이터셋에서도 최고 성능(SOTA)을 달성하여 실제 환경에서의 효과성과 강건성을 입증합니다.

시사점, 한계점

시사점:
대규모 데이터, 대규모 모델, LLM 통합, 강화학습을 결합한 새로운 ASR 시스템의 효과성을 보여줌.
실제 산업 환경에 적용 가능한 실용적인 ASR 시스템 개발 가능성 제시.
LLM 기반 ASR 시스템의 환각 문제를 완화하는 방안 제시.
스트리밍, 잡음 내성, 코드 전환 등 실제 응용에 필요한 기능 향상.
한계점:
본 논문에서 제시된 실제 산업 평가 데이터셋의 구체적인 내용이 부족함.
FunAudio-ASR의 성능 향상에 기여한 각 요소(대규모 데이터, 대규모 모델, LLM 통합, 강화학습)의 상대적 중요도에 대한 분석이 부족함.
다른 최첨단 ASR 시스템과의 더욱 포괄적인 비교 분석이 필요함.
👍