haebom
Sign In
Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference
Created by
Haebom
Category
Empty
์ ์
Nenad Banfic, David Fan, Kunal Vaishnavi, Sam Kemp, Sunghoon Choi, Rui Ren, Sayan Shaw, Meng Tang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ GPU ๊ฐ์ ์์ด CPU์์ ๊ณ ํ์ง์ ์จ๋๋ฐ์ด์ค ์คํธ๋ฆฌ๋ฐ ์๋ ์์ฑ ์ธ์(ASR)์ ์ํ ๋ชจ๋ธ ๊ฐ๋ฐ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ค์ํ ์ต์ ASR ์ํคํ ์ฒ๋ฅผ ๋น๊ต ๋ถ์ํ ๊ฒฐ๊ณผ, NVIDIA Nemotron Speech Streaming์ด ์ ์ฌ์ ํ๋์จ์ด์์์ ์ค์๊ฐ ์์ด ์คํธ๋ฆฌ๋ฐ์ ๊ฐ์ฅ ์ ํฉํจ์ ํ์ธํ์ต๋๋ค. ONNX Runtime ๊ธฐ๋ฐ์ ์ต์ ํ ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ์ฌ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ 2.47GB์์ 0.67GB๊น์ง ์ค์ด๋ฉด์๋ ์๋ ๋ชจ๋ธ๊ณผ 1% ์ด๋ด์ ๋จ์ด ์ค๋ฅ์จ(WER)์ ์ ์งํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ ์ฌ์ ์ฃ์ง ๋๋ฐ์ด์ค์์๋ GPU ์์ด ์ค์๊ฐ ๊ณ ํ์ง ASR์ด ๊ฐ๋ฅํจ์ ์ ์ฆํ์ต๋๋ค.
โข
๋ค์ํ ASR ๋ชจ๋ธ ๋ฐ ์ต์ ํ ๊ธฐ๋ฒ์ ๋ํ ์ฒด๊ณ์ ์ธ ๋น๊ต ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ์ฌ ์ฐ๊ตฌ ๋ฐฉํฅ ์ค์ ์ ๋์์ ์ค๋๋ค.
โข
์ ์๋ int4 k-quant ๋ชจ๋ธ์ 8.20%์ ๋ฎ์ ํ๊ท ์คํธ๋ฆฌ๋ฐ WER๊ณผ 0.56์ด์ ์๊ณ ๋ฆฌ์ฆ ์ง์ฐ ์๊ฐ์ ๋ฌ์ฑํ์ฌ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ ์ํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ ์์ด ์คํธ๋ฆฌ๋ฐ ASR์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ์ธ์ด ๋๋ ๋ณต์กํ ์ํฅ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage