Sign In

Taming the Entropy Cliff: Variable Codebook Size Quantization for Autoregressive Visual Generation

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Bowen Zheng, Weijian Luo, Guang Yang, Colin Zhang, Tianyang Hu

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ์ด์‚ฐ ์‹œ๊ฐ ํ† ํฌ๋‚˜์ด์ €๋Š” ๋ชจ๋“  ์œ„์น˜์—์„œ ๋™์ผํ•œ ์ฝ”๋“œ๋ถ ํฌ๊ธฐ($K$)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Š” ์ •๋ณด ์ด๋ก ์  ํ•œ๊ณ„์— ๋ด‰์ฐฉํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์‹œํ€€์Šค๊ฐ€ ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ์กฐ๊ฑด๋ถ€ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๊ธ‰๊ฒฉํžˆ ๊ฐ์†Œํ•˜๋Š” '์—”ํŠธ๋กœํ”ผ ์ ˆ๋ฒฝ(Entropy Cliff)' ํ˜„์ƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‹œํ€€์Šค๋ฅผ ๋”ฐ๋ผ ์ฝ”๋“œ๋ถ ํฌ๊ธฐ๊ฐ€ ์ ์ง„์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฐ€๋ณ€ ์ฝ”๋“œ๋ถ ํฌ๊ธฐ ์–‘์žํ™”(Variable Codebook Size Quantization, VCQ) ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
VCQ๋Š” ๊ณ ์ •๋œ ์ฝ”๋“œ๋ถ ํฌ๊ธฐ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜๊ณ , ํŠนํžˆ ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ ๋” ๋†’์€ ์ •๋ณด๋Ÿ‰์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
VCQ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ์ถ”๊ฐ€์ ์ธ ํ•™์Šต ๊ธฐ๋ฒ• ์—†์ด๋„ ๋›ฐ์–ด๋‚œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
VCQ์˜ ์ดˆ๊ธฐ ๋‚ฎ์€ ์ฝ”๋“œ๋ถ ํฌ๊ธฐ๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ณ„์ธต์  ์˜๋ฏธ ๊ตฌ์กฐ๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ•™์Šตํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•˜์—ฌ, ์ ์€ ์ˆ˜์˜ ํ† ํฐ๋งŒ์œผ๋กœ๋„ ๋†’์€ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
VCQ์˜ ํšจ๊ณผ๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์—์„œ๋Š” ๊ด€์ฐฐ๋˜์ง€ ์•Š์€ ๊ฒƒ์€ ์‹œ๊ฐ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ๊ณผ ์–ธ์–ด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์  ์ฐจ์ด์— ๊ธฐ์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘