Daily Arxiv

์ „ ์„ธ๊ณ„์—์„œ ๋ฐœ๊ฐ„๋˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋Š” ํŽ˜์ด์ง€ ์ž…๋‹ˆ๋‹ค.
๋ณธ ํŽ˜์ด์ง€๋Š” Google Gemini๋ฅผ ํ™œ์šฉํ•ด ์š”์•ฝ ์ •๋ฆฌํ•˜๋ฉฐ, ๋น„์˜๋ฆฌ๋กœ ์šด์˜ ๋ฉ๋‹ˆ๋‹ค.
๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ์€ ์ €์ž ๋ฐ ํ•ด๋‹น ๊ธฐ๊ด€์— ์žˆ์œผ๋ฉฐ, ๊ณต์œ  ์‹œ ์ถœ์ฒ˜๋งŒ ๋ช…๊ธฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

FastWhisper: Adaptive Self-knowledge Distillation for Real-time Automatic Speech Recognition

Created by
  • Haebom
Category
Empty

์ €์ž

Junseok Lee, Nahoon Kim, Sangyong Lee, Chang-Jae Chun

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ชจ๋ธ ์••์ถ•์„ ์œ„ํ•œ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ธ ์ง€์‹ ์ฆ๋ฅ˜์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ ์‘ํ˜• ์ž๊ธฐ ์ง€์‹ ์ฆ๋ฅ˜(ASKD) ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ASKD๋Š” ๊ต์‚ฌ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์˜์กด๋„๋ฅผ ๋™์ ์œผ๋กœ ์ค„์—ฌ ํ•™์ƒ ๋ชจ๋ธ์˜ ์ž์ฒด ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์ธ Whisper๋ฅผ ์••์ถ•ํ•œ FastWhisper๋Š” ๊ต์‚ฌ ๋ชจ๋ธ ๋Œ€๋น„ ์˜ค๋ฅ˜์œจ์„ ๋‚ฎ์ถ”๊ณ  ์ถ”๋ก  ์‹œ๊ฐ„์„ 5๋ฐฐ ๋‹จ์ถ•ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ง€์‹ ์ฆ๋ฅ˜ ์‹œ ๊ต์‚ฌ ๋ชจ๋ธ์˜ ๋‹จ์ ์„ ํ•™์ƒ ๋ชจ๋ธ์ด ๊ทธ๋Œ€๋กœ ๊ณ„์Šนํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ ์‘ํ˜• ์ž๊ธฐ ์ง€์‹ ์ฆ๋ฅ˜(ASKD)๋Š” ๋ชจ๋ธ ์••์ถ• ๊ณผ์ •์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ์œ ๋งํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ASKD ๊ธฐ๋ฒ•์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ๋ฐ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฒ€์ฆํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘