Sign In

Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Created by
  • Haebom
Category
Empty

์ €์ž

Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ๋‹จ์ผ ์ด๋ฏธ์ง€ ์ดˆํ•ด์ƒ๋„(SISR) ๋ชจ๋ธ์€ ํ•™์Šต๋œ ์Šค์ผ€์ผ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์ด๋ฅผ ํ›จ์”ฌ ์ดˆ๊ณผํ•˜๋Š” ์Šค์ผ€์ผ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ํ™•์žฅ์„ฑ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ค‘๊ฐ„ ์Šค์ผ€์ผ ์ƒํƒœ์˜ ์ž๊ธฐํšŒ๊ท€ ์ฒด์ธ๊ณผ ๋‹ค์ค‘ ์Šค์ผ€์ผ ์ธ์‹ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ชจ๋ธ ๋ถˆ๊ฐ€์ง€๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ์ธ Chain-of-Zoom(CoZ)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. CoZ๋Š” ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด ๊ธฐ๋ณธ SR ๋ชจ๋ธ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์žฌ์‚ฌ์šฉํ•˜๊ณ  ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•œ ํ•˜์œ„ ๋ฌธ์ œ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ทนํ•œ์˜ ํ•ด์ƒ๋„๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ทนํ•œ ํ•ด์ƒ๋„ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ์„ฑ: CoZ๋Š” ๊ธฐ์กด SR ๋ชจ๋ธ์„ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ 256๋ฐฐ ์ด์ƒ์˜ ๋†’์€ ์ดˆํ•ด์ƒ๋„ ๋ฐฐ์œจ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” SISR ๋ถ„์•ผ์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ๊ฐ€์ด๋“œ: ์‹œ๊ฐ ์ •๋ณด๊ฐ€ ์ค„์–ด๋“œ๋Š” ๊ณ ๋ฐฐ์œจ ํ™˜๊ฒฝ์—์„œ VLM ๊ธฐ๋ฐ˜์˜ ๋‹ค์ค‘ ์Šค์ผ€์ผ ์ธ์‹ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๊ฐ€์ด๋“œ์˜ ์ •ํ™•์„ฑ์„ ๋†’์ด๊ณ , GRPO๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ์„ ํ˜ธ๋„์— ๋งž์ถฐ ํ”„๋กฌํ”„ํŠธ ์ถ”์ถœ๊ธฐ๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•จ์œผ๋กœ์จ ๊ฒฐ๊ณผ๋ฌผ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
๋ณต์žก์„ฑ๊ณผ ๊ณ„์‚ฐ ๋น„์šฉ: CoZ๋Š” ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ SR ๋ฐ ํ”„๋กฌํ”„ํŠธ ์ƒ์„ฑ์„ ๊ฑฐ์น˜๋ฏ€๋กœ, ๋‹จ์ผ SR ๋ชจ๋ธ์— ๋น„ํ•ด ๊ณ„์‚ฐ ๋ณต์žก์„ฑ๊ณผ ์‹œ๊ฐ„์ด ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ ๋‹จ๊ณ„๋ณ„ ์ตœ์ ํ™”๊ฐ€ ์ค‘์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘