๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ์ถ๋ก ๊ฐ์ํ ๊ธฐ์ ์ธ ์์ธก ๋์ฝ๋ฉ(Speculative Decoding, SD)์ ํจ๊ณผ์ ์ธ ํ๊ฐ๋ฅผ ์ํด SPEED-Bench๋ผ๋ ํตํฉ์ ์ด๊ณ ๋ค์ํ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ ํ๋ ์์
๋ค์์ฑ, ์ฒ๋ฆฌ๋ ํ๊ฐ ๋ฏธํก, ์ค์ ํ๊ฒฝ๊ณผ์ ๊ดด๋ฆฌ๋ฅผ ํด๊ฒฐํ๊ณ ์, ์๋ฏธ๋ก ์ ๋ค์์ฑ์ ๊ฐ์ถ ์ง์ ๋ฐ์ดํฐ์
๊ณผ ๋ค์ํ ๋์์ฑ ์์ค์ ๊ณ ๋ คํ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์
์ ํฌํจํ๋ค. ์ด๋ฅผ ํตํด ํ๋ก๋์
์์ง๊ณผ์ ํตํฉ์ผ๋ก ์ค์ ์์คํ
๋์์ ๋ถ์ํ๊ณ , ํฉ์ฑ ์
๋ ฅ์ ์ฒ๋ฆฌ๋ ๊ณผ๋ํ๊ฐ, ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ต์ ๋๋ํํธ ๊ธธ์ด, ๋ฎ์ ๋ค์์ฑ ๋ฐ์ดํฐ์ ํธํฅ ๋ฑ SD์ ๋ค์ํ ์ธก๋ฉด์ ์ ๋ํํ๋ค.