haebom
Sign In
Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
Created by
Haebom
Category
Empty
์ ์
Yankai Yang, Yancheng Long, Hongyang Wei, Wei Chen, Tianke Zhang, Kaiyu Jiang, Haonan Fan, Changyi Liu, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang
๐ก ๊ฐ์
๊ธฐ์กด ๋ณด์ ๋ชจ๋ธ์ ๋ณต์กํ ์๊ฐ์ ํธ์ง ์์ ์์ ์ ์ญ์ ์๋ฏธ๋ก ์ ์ผ๊ด์ฑ๊ณผ ์๋ฌต์ ์ธ ๋ ผ๋ฆฌ์ ์ ์ฝ์ ํฌ์ฐฉํ๋ ๋ฐ ์ด๋ ค์์ด ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ํธ๋ ํ์ต๊ณผ ์ธ์ด ๋ชจ๋ธ๋ง์ ๊ณต์ ๋น์ -์ธ์ด ๋ฐฑ๋ณธ์์ ๊ณต๋์ผ๋ก ์ต์ ํํ๋ Joint Reward Modeling (JRM)์ ์ ์ํฉ๋๋ค. JRM์ ์์ฑ ๋ชจ๋ธ์ ์๋ฏธ๋ก ์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ์จ์ ์ธ ํ๋ณ์ ํํ์ผ๋ก ๋ด์ฌํํ์ฌ ๋น ๋ฅด๊ณ ์ ํํ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
JRM์ ํจ์จ์ฑ๊ณผ ์๋ฏธ๋ก ์ ์ดํด๋ผ๋ ๋ ๊ฐ์ง ์ธก๋ฉด์ ๋ชจ๋ ๊ฐ์ ํ์ฌ ์๊ฐ์ ๋ณด์ ๋ชจ๋ธ๋ง ๋ถ์ผ์์ ์๋นํ ๋ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค.
โข
๊ณต๋ ํ์ต ๋ฐฉ์์ ํนํ ๋ณต์กํ ์๊ฐ์ ํธ์ง๊ณผ ๊ฐ์ด ์ถ๋ก ๋ฅ๋ ฅ์ด ์ค์ํ ์์ ์์ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํฉ๋๋ค.
โข
์ด ์ฐ๊ตฌ๋ downstream ์จ๋ผ์ธ ๊ฐํ ํ์ต์ ์์ ์ฑ๊ณผ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
โข
JRM์ด ํ์ตํ๋ ๋ด๋ถ ์ถ๋ก ๊ณผ์ ์ ํด์ ๊ฐ๋ฅ์ฑ์ด๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage