Sign In

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•œ κ°•ν™”ν•™μŠ΅ 기법인 RLVRμ—μ„œ 기쑴의 κ·Έλ£Ή 기반 μ •μ±… 경사법이 μ•”λ¬΅μ μœΌλ‘œ μ •μ˜ν•˜λŠ” λͺ©ν‘œ 뢄포λ₯Ό λͺ…ν™•νžˆ ν•˜κ³ , 이λ₯Ό λͺ…μ‹œμ μœΌλ‘œ νˆ¬μ˜ν•˜λŠ” Listwise Policy Optimization (LPO)을 μ œμ•ˆν•©λ‹ˆλ‹€. LPOλŠ” 응닡 μ‹¬ν”Œλ ‰μŠ€ μƒμ—μ„œ 근사적인 λͺ©ν‘œ 뢄포 νˆ¬μ˜μ„ μ •ν™•ν•œ λ°œμ‚° μ΅œμ†Œν™”λ‘œ λŒ€μ²΄ν•˜μ—¬ ν›ˆλ ¨ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³  μ•ˆμ •μ„±κ³Ό 닀양성을 λ³΄μ‘΄ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ κ·Έλ£Ή 기반 RLVR λ°©λ²•λ‘ μ˜ κΈ°ν•˜ν•™μ  ꡬ쑰λ₯Ό 규λͺ…ν•˜κ³ , 이λ₯Ό λͺ…μ‹œμ μΈ λͺ©ν‘œ 뢄포 투영 ν”„λ ˆμž„μ›Œν¬λ‘œ ν™•μž₯ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ LPOλŠ” ν›ˆλ ¨ μ„±λŠ₯의 단쑰적 κ°œμ„ , μ•ˆμ •μ„± 및 응닡 λ‹€μ–‘μ„± λ³΄μ‘΄μ΄λΌλŠ” μž₯점을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ°œμ‚° μ„ νƒμ˜ μœ μ—°μ„±μ€ λ‹€μ–‘ν•œ ꡬ쑰적 속성을 κ°€μ§„ νˆ¬μ˜μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” LPO의 이둠적 κ·Όκ±°λ₯Ό λ”μš± κ°•ν™”ν•˜κ³ , λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 λ³΅μž‘ν•œ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ 적용 λ²”μœ„λ₯Ό ν™•μž₯ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘