haebom
Sign In
DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation
Created by
Haebom
Category
Empty
์ ์
Varun Gopal, Rishabh Jain, Aradhya Mathur, Nikitha SR, Sohan Patnaik, Sudhir Yarram, Mayur Hemani, Balaji Krishnamurthy, Mausoom Sarkar
๐ก ๊ฐ์
๊ทธ๋ํฝ ๋ ์ด์์ ์์ฑ ๋ชจ๋ธ์ ์ข ์ข ์ธ๊ฐ์ ๋ฏธ์ ๊ธฐ์ค์ ๋ถํฉํ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ ๊ฒช์ต๋๋ค. ์ด์ ๋ณธ ์ฐ๊ตฌ์์๋ 10,235๊ฐ์ ์ธ๊ฐ ์ฃผ์์ด ๋ฌ๋ฆฐ ์ ํธ๋ ์์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ธ DesignSense-10k๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ํ์ฉํ์ฌ ๊ทธ๋ํฝ ๋ ์ด์์ ํ๊ฐ๋ฅผ ์ํ Vision-Language Model(VLM) ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ์ธ DesignSense๋ฅผ ํ์ต์์ผฐ์ต๋๋ค. DesignSense๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ ์ด์์ ์์ฑ ์์ ์ ํ์ง์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ ์คํธ-์ด๋ฏธ์ง ํ๊ฐ ๋ชจ๋ธ์ ํ๊ณ ๊ทน๋ณต:
๊ธฐ์กด ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ์ ์ฌ์ฉ๋๋ ์ ํธ๋ ๋ฐ์ดํฐ์ ๊ณผ ๋ณด์ ๋ชจ๋ธ์ ๊ณต๊ฐ์ ๋ฐฐ์ด์ด ์ค์ํ ๊ทธ๋ํฝ ๋ ์ด์์ ํ๊ฐ์ ์ ํฉํ์ง ์์์ ์ ์ฆํ๊ณ , ๋ ์ด์์ ํ๊ฐ์ ํนํ๋ ๋ฐ์ดํฐ์ ๊ณผ ๋ชจ๋ธ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
โข
๊ณ ํ์ง ๋ ์ด์์ ํ๊ฐ ๋ฐ ์์ฑ ๊ฐ๋ฅ์ฑ ์ ์:
DesignSense-10k ๋ฐ์ดํฐ์ ๊ณผ DesignSense ๋ณด์ ๋ชจ๋ธ์ ๋ ์ด์์ ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , ์ค์ ์์ฉ์์์ ๋ ์ด์์ ํ์ง์ ์ค์ง์ ์ผ๋ก ๊ฐ์ ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
์ ๋ฐ์ ์ธ VLM์ ์ ๋ขฐ์ฑ ๋ถ์กฑ ๋ฐ 4-ํด๋์ค ์์ ์ ์ด๋ ค์:
์ต์ฒจ๋จ VLM์กฐ์ฐจ๋ ์ผ๋ฐ์ ์ธ ๋ ์ด์์ ํ๊ฐ์์ ์ ๋ขฐํ๊ธฐ ์ด๋ ต๊ณ , ํนํ 4๊ฐ์ง ์ ํ์ง(์ผ์ชฝ, ์ค๋ฅธ์ชฝ, ๋ ๋ค ์ข์, ๋ ๋ค ๋์จ)๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ๋ ์์ ์์๋ ์น๋ช ์ ์ธ ์ค๋ฅ๋ฅผ ๋ฒํ ์ ์๋ค๋ ์ ์ ํฅํ VLM์ ๋ฐ์ ๋ฐฉํฅ์ ๋ํ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage