Sign In

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Sajjad Abdoli, Ghassan Al-Sumaidaee, Clayton W. Taylor, Ahmad ElShiekh, Ahmed Rashad

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์ฝ”๋“œ ์Šค์œ„์นญ(ํ•œ ๋ฐœํ™” ๋‚ด ๋‘ ์–ธ์–ด ๊ฐ„ ์ „ํ™˜) ์Œ์„ฑ์— ๋Œ€ํ•œ ์ƒ์šฉ ์ž๋™ ์Œ์„ฑ ์ธ์‹(ASR) ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž์–ด-์˜์–ด, ํŽ˜๋ฅด์‹œ์•„์–ด-์˜์–ด, ๋…์ผ์–ด-์˜์–ด ๋“ฑ ๋„ค ๊ฐ€์ง€ ์–ธ์–ด ์Œ์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. GPT-4o ๋ฐ Gemini 1.5 Pro์™€ ๊ฐ™์€ LLM์„ ํ™œ์šฉํ•œ ๋‘ ๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์„ ๋ณ„๋œ 300๊ฐœ์˜ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ๋œ ๊ฐ ๋ฐ์ดํ„ฐ์…‹์„ ํ‰๊ฐ€ํ–ˆ์œผ๋ฉฐ, ElevenLabs Scribe v2๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ์€ ๋‹จ์–ด ์˜ค๋ฅ˜์œจ(WER)๊ณผ ๊ฐ€์žฅ ๋†’์€ BERTScore๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ „๋ฐ˜์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์‹ค์ œ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์—์„œ์˜ ASR ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์žˆ์–ด ๊ธฐ์กด์˜ ๋‹จ์ผ WER ์ง€ํ‘œ๋งŒ์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, BERTScore์™€ ๊ฐ™์€ ์˜๋ฏธ๋ก ์  ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ์ค‘์š”์„ฑ์ด ๋ถ€๊ฐ๋ฉ๋‹ˆ๋‹ค.
โ€ข
์ง‘๊ณ„ ํ‰๊ท ๊ฐ’ ์•„๋ž˜์— ์ˆจ๊ฒจ์ง„ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด ๋‚œ์ด๋„ ๊ณ„์ธตํ™” ๋ถ„์„์ด ํšจ๊ณผ์ ์ด๋ฉฐ, BERT ์ž„๋ฒ ๋”ฉ ํˆฌ์˜์€ ํ‘œ๋ฉด์ ์ธ ์Šคํฌ๋ฆฝํŠธ ์ฐจ์ด์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ํ™•์ธํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ๊ตฌ์ถ•๋œ ๋ฒค์น˜๋งˆํ‚น ๋ฐ์ดํ„ฐ์…‹์€ ์ฝ”๋“œ ์Šค์œ„์นญ ASR ์—ฐ๊ตฌ์˜ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ณต๊ฐœ ์ž๋ฃŒ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋น„์šฉ ํšจ์œจ์„ฑ์„ ๋†’์˜€์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ ˆ์ด๋ธ”๋ง ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์ ์ธ ํŽธํ–ฅ์„ฑ๊ณผ LLM ์ž์ฒด์˜ ํ•œ๊ณ„๋Š” ์ง€์†์ ์ธ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘