Sign In

POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models

Created by
  • Haebom
Category
Empty

์ €์ž

Yi Chen, Wonjin Shin, Shuhong Liu, Tho Mai, Jeongmo Lee, Chuanbo Hua, Kun Wang, Jun Liu, Joo-Young Kim

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๊ธฐ์ดˆ ๋ชจ๋ธ(LFMs)์˜ ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์œ„ํ•ด ๊ตฌ์กฐ์  ๊ฐ€์ง€์น˜๊ธฐ(structural pruning)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๊ฐ€์ง€์น˜๊ธฐ ๋ฐฉ๋ฒ•์ด ์ถ”๋ก  ์‹œ ๊ณ ์ •๋œ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ๋ฐ˜๋ฉด, ์ œ์•ˆํ•˜๋Š” POP(Partition-guided Online Pruning)๋Š” ์ปจํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๊ฐ€์ง€์น˜๊ธฐ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ชจ๋ธ ์ฑ„๋„์„ ์œ ์ง€, ํ›„๋ณด, ๊ฐ€์ง€์น˜๊ธฐ ์˜์—ญ์œผ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„์—์„œ ๋ฏธ์„ธํ•œ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ณ„๋„์˜ ์ „์ฒ˜๋ฆฌ, ์žฌํ•™์Šต, ์˜ˆ์ธก๊ธฐ ํ•™์Šต ์—†์ด๋„ ๋‹ค์–‘ํ•œ LFM์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์ •ํ™•๋„์™€ ๋‚ฎ์€ ์—ฐ์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด์˜ ๊ณ ์ •๋œ ๊ตฌ์กฐ์  ๊ฐ€์ง€์น˜๊ธฐ ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜, autoregressive ํ† ํฐ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํฌ์†Œ์„ฑ ํŒจํ„ด์„ ํ™œ์šฉํ•˜๋Š” ๋™์  ๊ฐ€์ง€์น˜๊ธฐ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ ์€ ์—ฐ์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ, Mixture-of-Experts ๋ชจ๋ธ, Vision-Language ๋ชจ๋ธ ๋“ฑ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” 'plug-and-play' ๋ฐฉ์‹์˜ ๊ฒฝ๋Ÿ‰ ๊ฐ€์ง€์น˜๊ธฐ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์ง€๋งŒ, ๋ฏธ์„ธํ•œ ๋งˆ์Šคํฌ ์ƒ์„ฑ ๊ณผ์ •์—์„œ์˜ ์ตœ์ ํ™” ๋ฐ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘