Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

Created by
  • Haebom

저자

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

개요

본 논문은 문맥 인식 자동 음성 인식(ASR)에서 특정 키워드를 인식하는 문제를 다룬다. 기존의 문맥 편향 기법들은 추가적인 모델 훈련이 필요하거나, 디코딩 속도가 느리거나, ASR 시스템 유형의 선택에 제약이 있는 한계를 가지고 있다. 본 논문에서는 CTC, Transducer, Attention Encoder-Decoder 모델 등 주요 ASR 모델 유형을 모두 지원하는 범용적인 ASR 문맥 편향 프레임워크를 제안한다. 이 프레임워크는 GPU 가속 기반의 단어 부스팅 트리를 사용하여, 최대 2만 개의 키워드를 사용하더라도 greedy 및 beam search 디코딩에서 속도 저하 없이 shallow fusion 모드로 작동한다. 실험 결과, 제안된 방법은 기존의 오픈소스 문맥 편향 기법들보다 정확도와 디코딩 속도 면에서 우수한 성능을 보였다. 제안된 문맥 편향 프레임워크는 NeMo 툴킷의 일부로 오픈소스로 공개되었다.

시사점, 한계점

시사점:
다양한 ASR 모델 유형에 적용 가능한 범용적인 문맥 편향 프레임워크 제시
GPU 가속을 통해 속도 저하 없이 많은 수의 키워드 처리 가능
기존 방법 대비 높은 정확도와 디코딩 속도 달성
오픈소스로 공개되어 접근성 향상
한계점:
본 논문에서 제시된 프레임워크의 성능은 특정 데이터셋과 키워드 집합에 대한 결과이며, 다른 조건에서는 성능이 달라질 수 있음.
다양한 ASR 모델에 적용 가능하지만, 모델 유형에 따른 최적화 여지가 존재할 수 있음.
키워드 이외의 문맥 정보 활용에 대한 고려는 부족함.
👍