Sign In

DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

Created by
  • Haebom
Category
Empty

์ €์ž

Varun Gopal, Rishabh Jain, Aradhya Mathur, Nikitha SR, Sohan Patnaik, Sudhir Yarram, Mayur Hemani, Balaji Krishnamurthy, Mausoom Sarkar

๐Ÿ’ก ๊ฐœ์š”

๊ทธ๋ž˜ํ”ฝ ๋ ˆ์ด์•„์›ƒ ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ข…์ข… ์ธ๊ฐ„์˜ ๋ฏธ์  ๊ธฐ์ค€์— ๋ถ€ํ•ฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๊ฒช์Šต๋‹ˆ๋‹ค. ์ด์— ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” 10,235๊ฐœ์˜ ์ธ๊ฐ„ ์ฃผ์„์ด ๋‹ฌ๋ฆฐ ์„ ํ˜ธ๋„ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ธ DesignSense-10k๋ฅผ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ทธ๋ž˜ํ”ฝ ๋ ˆ์ด์•„์›ƒ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ Vision-Language Model(VLM) ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜๊ธฐ์ธ DesignSense๋ฅผ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. DesignSense๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋ ˆ์ด์•„์›ƒ ์ƒ์„ฑ ์ž‘์—…์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ํ‰๊ฐ€ ๋ชจ๋ธ์˜ ํ•œ๊ณ„ ๊ทน๋ณต: ๊ธฐ์กด ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ์‚ฌ์šฉ๋˜๋˜ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ณด์ƒ ๋ชจ๋ธ์€ ๊ณต๊ฐ„์  ๋ฐฐ์—ด์ด ์ค‘์š”ํ•œ ๊ทธ๋ž˜ํ”ฝ ๋ ˆ์ด์•„์›ƒ ํ‰๊ฐ€์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ์„ ์ž…์ฆํ•˜๊ณ , ๋ ˆ์ด์•„์›ƒ ํ‰๊ฐ€์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ณ ํ’ˆ์งˆ ๋ ˆ์ด์•„์›ƒ ํ‰๊ฐ€ ๋ฐ ์ƒ์„ฑ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ: DesignSense-10k ๋ฐ์ดํ„ฐ์…‹๊ณผ DesignSense ๋ณด์ƒ ๋ชจ๋ธ์€ ๋ ˆ์ด์•„์›ƒ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ์‹ค์ œ ์‘์šฉ์—์„œ์˜ ๋ ˆ์ด์•„์›ƒ ํ’ˆ์งˆ์„ ์‹ค์งˆ์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์ „๋ฐ˜์ ์ธ VLM์˜ ์‹ ๋ขฐ์„ฑ ๋ถ€์กฑ ๋ฐ 4-ํด๋ž˜์Šค ์ž‘์—…์˜ ์–ด๋ ค์›€: ์ตœ์ฒจ๋‹จ VLM์กฐ์ฐจ๋„ ์ผ๋ฐ˜์ ์ธ ๋ ˆ์ด์•„์›ƒ ํ‰๊ฐ€์—์„œ ์‹ ๋ขฐํ•˜๊ธฐ ์–ด๋ ต๊ณ , ํŠนํžˆ 4๊ฐ€์ง€ ์„ ํƒ์ง€(์™ผ์ชฝ, ์˜ค๋ฅธ์ชฝ, ๋‘˜ ๋‹ค ์ข‹์Œ, ๋‘˜ ๋‹ค ๋‚˜์จ)๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋Š” ์ž‘์—…์—์„œ๋Š” ์น˜๋ช…์ ์ธ ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์€ ํ–ฅํ›„ VLM์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘