Sign In

Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 κ°•ν™”ν•™μŠ΅(RL)은 λΉ„μ‹Ό 둀아웃 λΉ„μš©μœΌλ‘œ 인해 μ‹€μš©μ„±μ΄ μ œν•œλ©λ‹ˆλ‹€. λ³Έ 논문은 둀아웃 λͺ¨λΈκ³Ό μ •μ±… κ°„μ˜ 뢄포 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 졜적 μ˜ˆμ‚° 기각 μƒ˜ν”Œλ§(OBRS)을 ν™œμš©ν•˜λŠ” Jackpot ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Jackpot은 OBRS 절차, μ •μ±… 및 둀아웃 λͺ¨λΈμ„ ν†΅ν•©ν•˜μ—¬ ν•™μŠ΅ν•˜λŠ” ν›ˆλ ¨ λͺ©ν‘œ, 그리고 효율적인 μ‹œμŠ€ν…œ κ΅¬ν˜„μ„ 톡해 ν•™μŠ΅ μ•ˆμ •μ„±μ„ 크게 ν–₯μƒμ‹œν‚€κ³  μ˜¨ν΄λ¦¬μ‹œ RL에 ν•„μ ν•˜λŠ” μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
둀아웃 생성과 μ •μ±… μ΅œμ ν™”λ₯Ό λΆ„λ¦¬ν•˜μ—¬ LLM RL의 νš¨μœ¨μ„±μ„ λŒ€ν­ ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” 길을 μ—΄μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
졜적 μ˜ˆμ‚° 기각 μƒ˜ν”Œλ§(OBRS)은 뢄포 뢈일치 문제λ₯Ό 효과적으둜 μ™„ν™”ν•˜μ—¬ ν•™μŠ΅ μ•ˆμ •μ„±μ„ 크게 λ†’μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Jackpot ν”„λ ˆμž„μ›Œν¬λŠ” LLM RL의 μ‹€μš©μ„±κ³Ό νš¨κ³Όμ„±μ„ ν•œ 단계 λ°œμ „μ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬μ˜ OBRS 기반 μ ‘κ·Ό 방식이 극볡해야 ν•  ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 연ꡬ κ³Όμ œλŠ”, 더 κ΄‘λ²”μœ„ν•œ LLM λͺ¨λΈ 크기와 λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯ 검증 및 OBRS의 계산 νš¨μœ¨μ„±μ„ λ”μš± μ΅œμ ν™”ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.
πŸ‘