Sign In

Optimal Transport for LLM Reward Modeling from Noisy Preference

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Licheng Pan, Haochen Yang, Haoxuan Li, Yunsheng Lu, Yongqi Tong, Yinuo Wang, Shijian Wang, Zhixuan Chu, Lei Shen, Yuan Lu, Hao Wang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ํ•™์Šต(RLHF)์˜ ํ•ต์‹ฌ ์š”์†Œ์ธ ๋ณด์ƒ ๋ชจ๋ธ์ด ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๋…ธ์ด์ฆˆ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์  ์ˆ˜์†ก ์ด๋ก ์— ๊ธฐ๋ฐ˜ํ•œ SelectiveRM ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ Joint Consistency Discrepancy์™€ Mass Relaxation ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ชจ๋ธ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์— ๋งž์ถ”๊ณ , ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ์ƒ˜ํ”Œ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ฐฐ์ œํ•˜์—ฌ ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์œ„ํ—˜์„ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์ตœ์‹  ๊ธฐ๋ฒ• ๋Œ€๋น„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์‹ค์ œ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์— ์กด์žฌํ•˜๋Š” ํ•„์—ฐ์ ์ธ ๋…ธ์ด์ฆˆ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ณด์ƒ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ตœ์  ์ˆ˜์†ก ์ด๋ก ์„ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด ์ ‘๊ทผ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ์„ ์Šค์Šค๋กœ ์‹๋ณ„ํ•˜์—ฌ ์ œ์™ธํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์˜ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์ด๋‚˜ ํŠน์ • ์œ ํ˜•์˜ ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•œ ๋ฏผ๊ฐ๋„ ๋“ฑ์€ ํ–ฅํ›„ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘