Sign In

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

Created by
  • Haebom
Category
Empty

저자

Gabriel Pirlogeanu, Alexandru-Lucian Georgescu, Horia Cucu

개요

본 논문은 NVIDIA의 FastConformer 아키텍처를 기반으로 하는 새로운 최첨단 루마니아어 자동 음성 인식(ASR) 시스템을 제시합니다. 주로 약하게 감독된 전사본으로 구성된 2,600시간이 넘는 방대한 음성 말뭉치에 모델을 훈련했습니다. CTC(Connectionist Temporal Classification) 및 TDT(Token-Duration Transducer) 분기가 있는 하이브리드 디코더를 활용하여 greedy, ALSD 및 6-gram 토큰 레벨 언어 모델을 사용한 CTC 빔 서치를 포함한 다양한 디코딩 전략을 평가했습니다. 이 시스템은 읽기, 즉흥적, 도메인별 음성을 포함한 모든 루마니아어 평가 벤치마크에서 최첨단 성능을 달성했으며, 이전 최고 성능 시스템에 비해 최대 27%의 상대적 단어 오류율(WER) 감소를 보였습니다.

시사점, 한계점

루마니아어 ASR에서 새로운 최고 성능 달성.
FastConformer 아키텍처의 효과적인 사용.
CTC 및 TDT 하이브리드 디코더를 활용하여 정확도 향상.
저지연 ASR 응용 분야에 적합한 실용적인 디코딩 효율성.
약하게 감독된 데이터 사용으로 훈련 가능성 확대.
논문에서 한계점에 대한 언급은 없음.
👍