본 논문은 NVIDIA의 FastConformer 아키텍처를 기반으로 하는 새로운 최첨단 루마니아어 자동 음성 인식(ASR) 시스템을 제시합니다. 주로 약하게 감독된 전사본으로 구성된 2,600시간이 넘는 방대한 음성 말뭉치에 모델을 훈련했습니다. CTC(Connectionist Temporal Classification) 및 TDT(Token-Duration Transducer) 분기가 있는 하이브리드 디코더를 활용하여 greedy, ALSD 및 6-gram 토큰 레벨 언어 모델을 사용한 CTC 빔 서치를 포함한 다양한 디코딩 전략을 평가했습니다. 이 시스템은 읽기, 즉흥적, 도메인별 음성을 포함한 모든 루마니아어 평가 벤치마크에서 최첨단 성능을 달성했으며, 이전 최고 성능 시스템에 비해 최대 27%의 상대적 단어 오류율(WER) 감소를 보였습니다.