Sign In

ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Nirmal Patel, Fei Wang, Inderjit S. Dhillon

πŸ’‘ κ°œμš”

λ³Έ 논문은 AI ν”Όλ“œλ°± 기반 κ°•ν™”ν•™μŠ΅(RLAIF)μ—μ„œ λ°œμƒν•˜λŠ” 비검증 κ°€λŠ₯ν•œ λ„λ©”μΈμ˜ λΆˆν™•μ‹€ν•œ 이산 보상 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ODRPO(Ordinal Decomposition for Robust Policy Optimization) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ODRPOλŠ” 보상을 순차적인 이진 μ§€ν‘œλ‘œ λΆ„ν•΄ν•˜μ—¬ 평가 λ…Έμ΄μ¦ˆλ₯Ό ꡬ쑰적으둜 λΆ„λ¦¬ν•˜κ³ , 이λ₯Ό 톡해 μ „μ—­ ν•™μŠ΅ μ‹ ν˜Έμ˜ μ˜€μ—Όμ„ λ°©μ§€ν•˜λ©° ν›ˆλ ¨ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€. Qwen2.5-7B 및 Qwen3-4B λͺ¨λΈμ— λŒ€ν•œ μ‹€ν—˜ κ²°κ³Ό, FACTS-grounding-v2 및 Alpaca-Evalsμ—μ„œ κΈ°μ‘΄ 방법 λŒ€λΉ„ μ΅œλŒ€ 14.8% ν–₯μƒλœ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RLAIF ν™˜κ²½μ—μ„œ λ°œμƒν•˜λŠ” λ…Έμ΄μ¦ˆκ°€ μ‹¬ν•œ 이산 λ³΄μƒμœΌλ‘œ μΈν•œ μ •μ±… μ΅œμ ν™”μ˜ λΆˆμ•ˆμ •μ„± 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
보상을 순차적인 이진 μ§€ν‘œλ‘œ λΆ„ν•΄ν•˜λŠ” ODRPOλŠ” 계산 λΉ„μš© 증가 없이 ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯을 κ°œμ„ ν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” λ‹€μ–‘ν•œ LLM 및 RLAIF μ‘μš© 뢄야에 적용될 수 μžˆλŠ” ν™•μž₯ κ°€λŠ₯ν•˜κ³  κ²¬κ³ ν•œ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” 더 λ³΅μž‘ν•œ 보상 κ΅¬μ‘°λ‚˜ λ‹€μ–‘ν•œ 평가 λ©”νŠΈλ¦­μ— λŒ€ν•œ ODRPO의 ν™•μž₯μ„± 및 μΌλ°˜ν™” μ„±λŠ₯을 μΆ”κ°€μ μœΌλ‘œ 탐ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘