haebom
Sign In
Entropy Aware Reward Guidance for Diffusion Language Model Alignment
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Atula Tejaswi, Litu Rout, Constantine Caramanis, Sanjay Shakkottai, Sujay Sanghavi
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ด์ฐ์ ์ธ ํ ํฐ์ ์ถ๋ ฅํ๋ ํ์ฐ ์ธ์ด ๋ชจ๋ธ(Diffusion Language Model)์์ ๋ณด์ ์๋ด(Reward Guidance)๋ฅผ ์ ์ฉํ๊ธฐ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ธ EntRGi๋ฅผ ์ ์ํฉ๋๋ค. EntRGi๋ ํ ํฐ๋ณ ์์ธก ์ํธ๋กํผ๋ฅผ ํ์ฉํ์ฌ ์ฐ์์ ์ธ ํ ํฐ ์ํ(token relaxation)์ ์ค์ ์ด์ฐ์ ์ธ ํ ํฐ ์ํ๋ง ์ฌ์ด๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํจ์ผ๋ก์จ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ด ๋ณด์ ๋ชจ๋ธ์ ์ ๋ขฐ๋์ ์ต์ ํ ์ ํ๋ ์ค ํ๋๋ฅผ ํฌ์ํด์ผ ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ์ฐ ์ธ์ด ๋ชจ๋ธ์์ ๋ณด์ ์๋ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ํ ์๋ก์ด ๋ฉ์ปค๋์ฆ(EntRGi)์ ์ ์ํ์ต๋๋ค.
โข
EntRGi๋ ๋ณด์ ๋ชจ๋ธ์ ์ ๋ขฐ๋์ ์ต์ ํ ์ ํ๋๋ฅผ ๋์์ ์ ์งํ๋ฉฐ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
โข
์ ์๋ EntRGi์ RGRL(Reward Guided Reinforcement Learning) ๊ธฐ๋ฒ์ ํตํด ํ ์คํธ ์๊ฐ ์ ์ ๋ฐ ์ฌํ ํ๋ จ์์ ์ต์ ๊ธฐ์ ๋๋น ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
โข
EntRGi์ ํจ๊ณผ๋ 7B ํ๋ผ๋ฏธํฐ ํ์ฐ ์ธ์ด ๋ชจ๋ธ์ ๋์์ผ๋ก ์คํ์ ์ผ๋ก ๊ฒ์ฆ๋์์ต๋๋ค.
โข
ํฅํ ์ฐ๊ตฌ์์๋ ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ์ด๋ ๋ค์ํ ์ธ์ด ์์ฑ ์์ ์ EntRGi๋ฅผ ์ ์ฉํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage