Sign In

BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Xiaoyou Wu, Cheng-Jhih Shih, Binfei Ji, Yong Liu, Yingyan Celine Lin

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ํ™•์‚ฐ ์–ธ์–ด ๋ชจ๋ธ(dLLMs)์˜ ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ ๋ธ”๋ก์„ ๋™์‹œ์— ํ™œ์šฉํ•˜๋Š” BlockBatch๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. BlockBatch๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ธ”๋ก ํฌ๊ธฐ์—์„œ ๋ฐœ์ƒํ•˜๋Š” KV ์บ์‹œ ๊ถค์ ์˜ ์œ ์‚ฌ์„ฑ๊ณผ ์ฐจ์ด์ ์„ ํ™œ์šฉํ•˜์—ฌ, ํ›ˆ๋ จ ์—†์ด ์—ฌ๋Ÿฌ ๋ธ”๋ก ํฌ๊ธฐ ๋ถ„๊ธฐ๋ฅผ ๋™์ผํ•œ ๋ฐฐ์น˜ ์—ฐ์‚ฐ ๋‚ด์—์„œ ์‹คํ–‰ํ•˜๊ณ  ์‹ ๋ขฐ๋„ ๊ธฐ๋ฐ˜ ๋ณ‘ํ•ฉ, ๋ฆฌ๋” ๊ธฐ๋ฐ˜ ๋™๊ธฐํ™”, ์ฃผ๊ธฐ์  ์ „์ฒด ์‹œํ€€์Šค ์ƒˆ๋กœ๊ณ ์นจ์„ ํ†ตํ•ด ์ด๋ฅผ ์กฐ์œจํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, BlockBatch๋Š” ํ‰๊ท  26.6%์˜ Denoising NFE๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๊ณ  1.33๋ฐฐ์˜ ์ข…๋‹จ ๊ฐ„ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋‹ค์–‘ํ•œ ๋ธ”๋ก ํฌ๊ธฐ๋ฅผ ๋ณ‘๋ ฌ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด dLLM ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ›ˆ๋ จ ์—†์ด ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์˜จ๋ผ์ธ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์‹ค์ œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์€ dLLM์˜ ํšจ์œจ์ ์ธ ํ™•์‚ฐ ๋ชจ๋ธ ์ถ”๋ก ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ๋ธ”๋ก ํฌ๊ธฐ์˜ ์ตœ์  ์กฐํ•ฉ์ด๋‚˜ ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ์˜ ์„ฑ๋Šฅ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘