haebom
Sign In
Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Siqi Luo, Jianghan Shen, Yi Xin, Huayu Zheng, Haoxing Chen, Yan Tai, Yue Li, Junjun He, Yihao Liu, Guangtao Zhai, Yuewen Cao, Xiaohong Liu
๐ก ๊ฐ์
์ด ๋ ผ๋ฌธ์ ํ์ฐ ๋ค์ค ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(dMLLMs)์ ๊ฐํ ํ์ต ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ธ ๊ณ์ธต์ ํ ํฐ GRPO(HT-GRPO)๋ฅผ ์ ์ํฉ๋๋ค. HT-GRPO๋ ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ, ๊ธ๋ก๋ฒ ๋ ์ด์์์ ๊ฒฐ์ ํ๋ ์ด๊ธฐ ํ ํฐ๊ณผ ๋ก์ปฌ ๋ํ ์ผ์ ๋ด๋นํ๋ ํ๊ธฐ ํ ํฐ์ ์ฐจ๋ฑ์ ์ธ ๋ณด์์ ๋ถ์ฌํฉ๋๋ค. ์ ์๋ "Sketch-Then-Paint" ํ๋ จ ๋ฐฉ์์ ๊ธ๋ก๋ฒ, ๊ตฌ์กฐ, ์ ์ ๋จ๊ณ๋ฅผ ํตํด ์ ์ฑ ์ต์ ํ๋ฅผ ์ฒด๊ณํํ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ GenEval ๋ฐ DPG ๋ฒค์น๋งํฌ์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
dMLLMs์ ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์ ๋ด์ฌ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๊ฐํ ํ์ต ์ ์ฑ ์ต์ ํ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ ์ ์์ต๋๋ค.
โข
"Sketch-Then-Paint" ํ๋ จ ๋ฐฉ์๊ณผ ๊ณ์ธต์ ์ ์ฉ ํ ๋น ๋ฉ์ปค๋์ฆ์ ์ด๋ฏธ์ง ํ์ง, ์ฌ๋ฏธ์ฑ, ์ฌ์ฉ์ ์ ํธ๋ ์ ๋ฐ์ ๊ฑธ์ณ ์๋นํ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค.
โข
ํ๋กฌํํธ ์กฐ๊ฑด๋ถ ์ถ์ ๊ธฐ๋ฅผ ํตํ ์ค์๋ ๋น์จ ๊ณ์ฐ์ด ๋ชจ๋ ํ ํฐ์ ๋ํด ๊ท ์ผํ ๋ณด์์ ํ ๋นํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ค๋ฅธ ์ ํ์ ์์ฑ ๋ชจ๋ธ์ ๋ํ ์ ์ฉ์ฑ์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage