Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference

Created by

Haebom

저자

Nenad Banfic, David Fan, Kunal Vaishnavi, Sam Kemp, Sunghoon Choi, Rui Ren, Sayan Shaw, Meng Tang

💡 개요

본 논문은 GPU 가속 없이 CPU에서 고품질의 온디바이스 스트리밍 자동 음성 인식(ASR)을 위한 모델 개발을 목표로 합니다. 다양한 최신 ASR 아키텍처를 비교 분석한 결과, NVIDIA Nemotron Speech Streaming이 저사양 하드웨어에서의 실시간 영어 스트리밍에 가장 적합함을 확인했습니다. ONNX Runtime 기반의 최적화 기법들을 적용하여 모델 크기를 2.47GB에서 0.67GB까지 줄이면서도 원래 모델과 1% 이내의 단어 오류율(WER)을 유지하는 데 성공했습니다.

🔑 시사점 및 한계

•

저사양 엣지 디바이스에서도 GPU 없이 실시간 고품질 ASR이 가능함을 입증했습니다.

•

다양한 ASR 모델 및 최적화 기법에 대한 체계적인 비교 분석 결과를 제시하여 연구 방향 설정에 도움을 줍니다.

•

제안된 int4 k-quant 모델은 8.20%의 낮은 평균 스트리밍 WER과 0.56초의 알고리즘 지연 시간을 달성하여 성능과 효율성의 새로운 기준점을 제시합니다.

•

본 연구는 영어 스트리밍 ASR에 초점을 맞추고 있으며, 다양한 언어 또는 복잡한 음향 환경에서의 성능은 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage