Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pushing the Limits of Beam Search Decoding for Transducer-based ASR models

Created by
  • Haebom

저자

Lilit Grigoryan, Vladimir Bataev, Andrei Andrusenko, Hainan Xu, Vitaly Lavrukhin, Boris Ginsburg

개요

본 논문은 전사기(Transducer) 기반 음성 인식 시스템의 빔 서치 속도를 향상시키는 새로운 방법을 제시합니다. 전사기 모델은 정확도, 실시간 처리 성능, 추론 속도 면에서 균형을 잘 맞추지만, 빔 서치는 네트워크의 반복적인 계산으로 속도 저하를 야기합니다. 본 논문에서는 배치 연산, 트리 기반 가설 구조, 개선된 공백 점수 계산, CUDA 그래프 실행 등을 활용하여 ALSD++와 AES++라는 두 가지 최적화된 알고리즘을 구현합니다. 이를 통해 빔 서치와 그리디 디코딩 간의 속도 차이를 10-20% 수준으로 줄이고, 그리디 디코딩 대비 14-30%의 WER 개선, 저자원 환경에서 기존 방법 대비 최대 11%의 얕은 융합 성능 향상을 달성합니다. 모든 알고리즘은 오픈 소스로 공개됩니다.

시사점, 한계점

시사점:
전사기 기반 음성 인식 시스템의 빔 서치 속도를 효과적으로 향상시키는 방법 제시.
그리디 디코딩 대비 WER을 크게 개선하면서 속도 저하를 최소화.
저자원 환경에서의 얕은 융합 성능 향상.
모든 알고리즘 오픈 소스 공개를 통한 연구 확장 및 활용 증대.
한계점:
제시된 알고리즘의 성능 향상은 특정 데이터셋 및 환경에 국한될 수 있음.
다른 전사기 모델이나 음성 인식 시스템에 대한 일반화 가능성에 대한 추가적인 연구 필요.
CUDA 그래프 실행에 대한 의존성으로 GPU 환경에서만 최적의 성능을 보일 가능성 존재.
👍