Sign In

SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration

Created by
  • Haebom
Category
Empty

์ €์ž

Hanyu Wei, Zunhai Su, Peng Lu, Chao Li, Spandan Tiwari, Ashish Sirasao, Yuhan Dong

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋‚ฎ์€ ์ถ”๋ก  ์†๋„๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์ŠคํŽ˜ํ˜๋Ÿฌํ‹ฐ๋ธŒ ๋””์ฝ”๋”ฉ(Speculative Decoding) ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜๋Š” SDFP ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SDFP๋Š” ๋ณ„๋„์˜ ํ•™์Šต ์—†์ด Fisher Information Trace (FIT) ๊ธฐ๋ฐ˜ ๊ณ„์ธต ๊ฐ€์ง€์น˜๊ธฐ๋ฅผ ํ†ตํ•ด ์›๋ณธ LLM์œผ๋กœ๋ถ€ํ„ฐ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์ŠคํŽ˜ํ˜๋Ÿฌํ‹ฐ๋ธŒ ๋””์ฝ”๋”ฉ์˜ ๋‹จ์ ์ด์—ˆ๋˜ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ ๊ตฌ์ถ• ๋ฐ ๊ด€๋ฆฌ์˜ ๋ณต์žก์„ฑ์„ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. SDFP๋Š” ์ถ”๊ฐ€ ํ•™์Šต, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹, ๋ณ„๋„ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ ์œ ์ง€๋ณด์ˆ˜ ์—†์ด ์‹ ์†ํ•˜๊ณ  ์‰ฝ๊ฒŒ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชฉํ‘œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์œผ๋ฉด์„œ 1.32๋ฐฐ์—์„œ 1.5๋ฐฐ์˜ ๋””์ฝ”๋”ฉ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ›ˆ๋ จ ์—†์ด LLM ๊ฐ€์†ํ™”: ๋ณ„๋„์˜ ํ•™์Šต์ด๋‚˜ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด ๊ธฐ์กด LLM์—์„œ ๋ฐ”๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ๋Ÿ‰ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜์—ฌ, LLM ๋ฐฐํฌ ๋ฐ ํ™œ์šฉ์˜ ์ง„์ž… ์žฅ๋ฒฝ์„ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค.
โ€ข
๊ตฌํ˜„ ๋ฐ ์œ ์ง€๋ณด์ˆ˜์˜ ์šฉ์ด์„ฑ: ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์„ ๋ณ„๋„๋กœ ๊ด€๋ฆฌํ•˜๊ฑฐ๋‚˜ ํŠœ๋‹ํ•  ํ•„์š” ์—†์ด, ๊ธฐ์กด LLM์˜ ์ผ๋ถ€ ๊ณ„์ธต์„ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋ฏ€๋กœ ๊ตฌํ˜„๊ณผ ์œ ์ง€๋ณด์ˆ˜๊ฐ€ ๋งค์šฐ ๊ฐ„ํŽธํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์„ฑ๋Šฅ ์ €ํ•˜ ์ตœ์†Œํ™”: ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ์˜ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ๊ณ„์ธต ๋ฏผ๊ฐ๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ €์˜ํ–ฅ ๊ณ„์ธต์„ ์ œ๊ฑฐํ•˜์—ฌ, ๋ชฉํ‘œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ๊ฑฐ์˜ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์ƒ๋‹นํ•œ ๋””์ฝ”๋”ฉ ์†๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ : FIT ๊ธฐ๋ฐ˜ ๊ณ„์ธต ๊ฐ€์ง€์น˜๊ธฐ์˜ ํšจ๊ณผ๊ฐ€ ๋ชจ๋ธ ๊ตฌ์กฐ๋‚˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋งค์šฐ ํฌ๊ท€ํ•˜๊ฑฐ๋‚˜ ํŠน์ˆ˜ํ•œ ์ž‘์—…์—์„œ๋Š” ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทนํ•œ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์œ„ํ•ด์„œ๋Š” ๋” ์ •๊ตํ•œ ๋“œ๋ž˜ํ”„ํŠธ ๋ชจ๋ธ ์„ค๊ณ„ ๋˜๋Š” ๊ฒ€์ฆ ์ „๋žต์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘