Sign In

Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Bowen Zheng, Yihong Luo, Tianyang Hu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ด๋ฏธ์ง€ ํ† ํฌ๋‚˜์ด์ € ํ•™์Šต ์‹œ ๋ณต์› ์„ฑ๋Šฅ๊ณผ ์‚ฌ์ „ ๋ชจ๋ธ(prior model) ํ•™์Šต ๊ฐ„์˜ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์‚ผ๊ฐ ์ •๋ณด ์ผ๊ด€์„ฑ(Tripartite Variational Consistency, TVC) ๋ถ„์„์„ ํ†ตํ•ด ๊ธฐ์กด์˜ ์ด๋‹จ๊ณ„ ํ•™์Šต ๋ฐฉ์‹์ด ์‚ฌ์ „ ๋ชจ๋ธ๊ณผ์˜ ์ผ๊ด€์„ฑ์„ ๊ฐ„๊ณผํ•จ์„ ์ง€์ ํ•˜๊ณ , ํ† ํฌ๋‚˜์ด์ € ํ•™์Šต ๋‹จ๊ณ„์— ์‚ฌ์ „ ๋ชจ๋ธ๊ณผ์˜ ๋ถ„ํฌ ์ผ์น˜ ์‹ ํ˜ธ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ wAR-Tok๋Š” Wasserstein ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„์„ ์ด์šฉํ•œ ํ† ํฐ ์ˆ˜์ค€์˜ ๋Œ€์กฐ ํ•™์Šต์„ ํ†ตํ•ด ์‚ฌ์ „ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋†’์—ฌ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ด๋ฏธ์ง€ ํ† ํฌ๋‚˜์ด์ €์™€ ์‚ฌ์ „ ๋ชจ๋ธ ๊ฐ„์˜ ํšจ๊ณผ์ ์ธ ์—ฐ๊ณ„ ํ•™์Šต์˜ ์ค‘์š”์„ฑ: ๊ธฐ์กด์˜ ๋ถ„๋ฆฌ๋œ ํ•™์Šต ๋ฐฉ์‹์€ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์‚ฌ์ „ ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์•„ ์ƒ์„ฑ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ช…ํ™•ํžˆ ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
Wasserstein ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„์„ ํ™œ์šฉํ•œ ๋ถ„ํฌ ์ผ์น˜ ํ•™์Šต: ๋ณต์žกํ•œ ๋ถ„ํฌ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ธ Wasserstein ๊ทธ๋ž˜๋””์–ธํŠธ ํ๋ฆ„์„ ํ† ํฌ๋‚˜์ด์ € ํ•™์Šต์— ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด AR ๋ชจ๋ธ๊ณผ์˜ ํ˜ธํ™˜์„ฑ: ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ์—ญ์ „ํŒŒ ์—†์ด ์ˆœ๋ฐฉํ–ฅ ์—ฐ์‚ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ๊ธฐ์กด์˜ ํ•™์Šต๋œ AR ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋Œ€๊ทœ๋ชจ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆ ํ•„์š”: CIFAR-10, ImageNet์—์„œ์˜ ๊ฒฐ๊ณผ๋Š” ๊ณ ๋ฌด์ ์ด๋‚˜, ๋”์šฑ ๋ณต์žกํ•˜๊ณ  ๊ณ ์ฐจ์›์ ์ธ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ํ™•์žฅ์„ฑ ๋ฐ ์„ฑ๋Šฅ ๊ฒ€์ฆ์ด ์ถ”๊ฐ€์ ์œผ๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘