Sign In

expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM μˆ˜ν•™μ  μΆ”λ‘ μ—μ„œ μ‚¬μš©λ˜λŠ” Group Relative Policy Optimization(GRPO)의 두 κ°€μ§€ λΉ„νš¨μœ¨μ„±, 즉 κ³ μ •λœ KL νŽ˜λ„ν‹° κ³„μˆ˜λ‘œ μΈν•œ μ •μ±… νƒμƒ‰μ˜ μ œμ•½κ³Ό κ· μΌν•œ 문제 μƒ˜ν”Œλ§μœΌλ‘œ μΈν•œ λΉ„νš¨μœ¨μ μΈ ν•™μŠ΅ μ‹ ν˜Έ ν™œμš©μ„ μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λ³Έ μ—°κ΅¬λŠ” 정확도에 따라 KL 규제 강도λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•˜λŠ” AKL λͺ¨λ“ˆκ³Ό 쀑간 λ‚œμ΄λ„μ˜ λ¬Έμ œμ— μ§‘μ€‘ν•˜λŠ” GCS λͺ¨λ“ˆμ„ μ œμ•ˆν•˜λŠ” Exploration-Prioritized Policy Optimization(EXPO)을 μ œμ‹œν•©λ‹ˆλ‹€. μ œμ•ˆλœ EXPOλŠ” μ‹€ν—˜ κ²°κ³Ό, κΈ°μ‘΄ GRPO λŒ€λΉ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
동적 KL 규제: λͺ¨λΈ μ„±λŠ₯에 따라 KL 규제 강도λ₯Ό μ‘°μ ˆν•˜μ—¬ 탐색을 효과적으둜 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
정보 ν•™μŠ΅ 쀑심 μƒ˜ν”Œλ§: 쀑간 λ‚œμ΄λ„ λ¬Έμ œμ— μ§‘μ€‘ν•¨μœΌλ‘œμ¨ λͺ¨λΈμ˜ ν•™μŠ΅ νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
탐색과 μ•ˆμ •μ„±μ˜ κ· ν˜•: EXPOλŠ” μ œν•œλœ μΆ”λ‘  λΉ„μš© μ•ˆμ—μ„œ λͺ¨λΈμ˜ 탐색 λ²”μœ„λ₯Ό λ„“νžˆλŠ” 데 효과적이며, μ΄λŠ” 특히 pass@32와 같은 λ©”νŠΈλ¦­μ—μ„œ λ‘λ“œλŸ¬μ§‘λ‹ˆλ‹€.
β€’
μƒˆλ‘œμš΄ LLM μˆ˜ν•™μ  μΆ”λ‘  방법둠 μ œμ‹œ: GRPO의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  LLM μˆ˜ν•™μ  μΆ”λ‘  μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ³ μ •λœ μΆ”λ‘  λΉ„μš© λ‚΄μ—μ„œμ˜ μ„±λŠ₯ ν–₯상: EXPOλŠ” λ™μΌν•œ μΆ”λ‘  λΉ„μš© ν™˜κ²½μ—μ„œ 탐색 λ²”μœ„λ₯Ό λ„“νž˜μœΌλ‘œμ¨ μ‹€μ§ˆμ μΈ μ„±λŠ₯ κ°œμ„ μ„ μ΄λŒμ–΄λƒˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ : λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ AKL 및 GCS λͺ¨λ“ˆμ˜ μ΅œμ ν™”λœ νŒŒλΌλ―Έν„° 섀정에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 μˆ˜ν•™μ  μΆ”λ‘  데이터셋에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 더 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘