Sign In

GOPO: Policy Optimization using Ranked Rewards

Created by
  • Haebom
Category
Empty

μ €μž

Kyuseong Choi, Dwaipayan Saha, Woojeong Kim, Anish Agarwal, Raaz Dwivedi

πŸ’‘ κ°œμš”

λ³Έ 논문은 인간 ν”Όλ“œλ°± 기반 κ°•ν™”ν•™μŠ΅(RLHF)μ—μ„œ λ°œμƒν•˜λŠ” 보상 λͺ¨λΈμ˜ μ ˆλŒ€ 보상 크기와 μ •μ±… μ΅œμ ν™”μ˜ 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λ³΄μƒμ˜ 크기가 μ•„λ‹Œ μˆœμœ„λ§Œμ„ ν™œμš©ν•˜λŠ” μƒˆλ‘œμš΄ μ •μ±… μ΅œμ ν™” 방법인 GOPO(Group Ordinal Policy Optimization)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. GOPOλŠ” μš”μ•½, μ§€μ‹œ λ”°λ₯΄κΈ°, μ±„νŒ… μ™„μ„± λ“± 검증 λΆˆκ°€λŠ₯ν•œ 보상 ν™˜κ²½μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ 더 높은 ν›ˆλ ¨/검증 보상 ꢀ적, ν–₯μƒλœ LLM 평가 κ²°κ³Ό, 그리고 더 적은 ν›ˆλ ¨ λ‹¨κ³„λ‘œ μœ μ‚¬ν•œ ν’ˆμ§ˆμ˜ μ •μ±… 달성을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
검증 λΆˆκ°€λŠ₯ν•œ 보상 ν™˜κ²½μ—μ„œ 보상 λͺ¨λΈκ³Ό μ •μ±… μ΅œμ ν™” κ°„μ˜ 뢈일치둜 μΈν•œ μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³΄μƒμ˜ μˆœμœ„ μ •λ³΄λ§Œμ„ ν™œμš©ν•¨μœΌλ‘œμ¨ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ 높이고 더 λΉ λ₯΄κ²Œ κ³ ν’ˆμ§ˆ 정책을 ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ μž‘μ—… 및 λͺ¨λΈ 크기에 걸쳐 μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 μž…μ¦ν•˜μ—¬ μΌλ°˜ν™” κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
GOPO 방법둠이 ꡬ체적으둜 μ–΄λ–€ λ°©μ‹μœΌλ‘œ λ³΄μƒμ˜ μˆœμœ„ 정보λ₯Ό ν™œμš©ν•˜μ—¬ μ΅œμ ν™”λ₯Ό μˆ˜ν–‰ν•˜λŠ”μ§€μ— λŒ€ν•œ 더 μžμ„Έν•œ λ©”μ»€λ‹ˆμ¦˜ μ„€λͺ…이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘