Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fun-ASR Technical Report

Created by
  • Haebom

저자

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

개요

본 논문은 대규모 데이터, 모델 크기 확장, 대규모 언어 모델(LLM) 통합 및 강화 학습을 시너지 있게 결합하여 다양한 음성 인식 시나리오에서 최첨단 성능을 달성하는 LLM 기반 ASR 시스템인 Fun-ASR을 제시한다. 특히, 스트리밍 기능, 잡음 내성, 코드 스위칭, 핫워드 사용자 정의와 같은 실제 애플리케이션 요구 사항을 충족하도록 최적화되었다. 실제 산업 데이터셋에서 Fun-ASR은 기존 LLM 기반 ASR 시스템보다 더 우수한 성능을 보여준다.

시사점, 한계점

실제 산업 데이터셋에서 우수한 성능을 보이는, 실용적인 음성 인식 시스템 개발.
대규모 언어 모델(LLM)을 활용하여 음성 인식의 성능을 향상시킴.
스트리밍, 잡음 내성, 코드 스위칭 등 실제 애플리케이션에서 중요한 기능들을 최적화.
LLM의 환각 문제에 대한 언급은 없으며, 해당 문제에 대한 구체적인 해결 방안 제시 부족.
다른 LLM 기반 ASR 시스템과의 직접적인 비교에 대한 정보 부족.
👍