haebom
Sign In
Optimal Transport for LLM Reward Modeling from Noisy Preference
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Licheng Pan, Haochen Yang, Haoxuan Li, Yunsheng Lu, Yongqi Tong, Yinuo Wang, Shijian Wang, Zhixuan Chu, Lei Shen, Yuan Lu, Hao Wang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต์์ ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ํ์ต(RLHF)์ ํต์ฌ ์์์ธ ๋ณด์ ๋ชจ๋ธ์ด ์ค์ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ก ์ธํด ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต์ ์์ก ์ด๋ก ์ ๊ธฐ๋ฐํ SelectiveRM ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ ์๋ ๋ฐฉ๋ฒ์ Joint Consistency Discrepancy์ Mass Relaxation ๋ฉ์ปค๋์ฆ์ ํตํด ๋ชจ๋ธ ์์ธก ๋ถํฌ๋ฅผ ์ ํธ๋ ๋ฐ์ดํฐ์ ๋ง์ถ๊ณ , ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ํ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฐ์ ํ์ฌ ๊นจ๋ํ ๋ฐ์ดํฐ์ ๋ํ ์ํ์ ๋ฎ์ถฅ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์ต์ ๊ธฐ๋ฒ ๋๋น ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ค์ ์ธ๊ฐ ์ ํธ๋ ๋ฐ์ดํฐ์ ์กด์ฌํ๋ ํ์ฐ์ ์ธ ๋ ธ์ด์ฆ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ณด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์ต์ ์์ก ์ด๋ก ์ ํ์ฉํ์ฌ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ธ์ด์ฆ ์ํ์ ์ค์ค๋ก ์๋ณํ์ฌ ์ ์ธํ๋ ์๋ก์ด ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ต ํจ์จ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ์ ๊ณ์ฐ ๋ณต์ก์ฑ์ด๋ ํน์ ์ ํ์ ๋ ธ์ด์ฆ์ ๋ํ ๋ฏผ๊ฐ๋ ๋ฑ์ ํฅํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage