Sign In

Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Yixuan Even Xu, Yash Savani, Fei Fang, J. Zico Kolter

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” RLVR(Reinforcement Learning with Verifiable Rewards) 방식은 둀아웃 생성과 μ •μ±… μ—…λ°μ΄νŠΈ κ°„μ˜ 계산 및 λ©”λͺ¨λ¦¬ λΉ„λŒ€μΉ­ 문제λ₯Ό κ²ͺμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 PODS(Policy Optimization with Down-Sampling)λ₯Ό μ œμ•ˆν•˜μ—¬, 둀아웃 생성과 μ •μ±… μ—…λ°μ΄νŠΈλ₯Ό λΆ„λ¦¬ν•˜κ³  μ „λž΅μ μœΌλ‘œ μ„ νƒλœ 둀아웃 λΆ€λΆ„μ§‘ν•©λ§Œμ„ μ‚¬μš©ν•˜μ—¬ ν•™μŠ΅ν•¨μœΌλ‘œμ¨ μ—…λ°μ΄νŠΈ λΉ„μš©μ„ 크게 μ€„μ΄λ©΄μ„œλ„ ν•™μŠ΅ ν’ˆμ§ˆμ„ μœ μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
PODSλŠ” 둀아웃 선택 기쀀을 톡해 보상 닀양성을 μ΅œλŒ€ν™”ν•˜μ—¬ 효율적인 μ •μ±… μ΅œμ ν™”λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 κΈ°μ‘΄ GRPO λŒ€λΉ„ μ΅œλŒ€ 1.7λ°° λΉ λ₯Έ μ†λ„λ‘œ 졜고 μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©°, λ‹€μ–‘ν•œ μΆ”λ‘  벀치마크 및 ν•˜λ“œμ›¨μ–΄ κ΅¬μ„±μ—μ„œ νš¨κ³Όμ μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 둀아웃 선택 κΈ°μ€€μ˜ μΌλ°˜ν™” 및 λ”μš± λ‹€μ–‘ν•œ LLM μž‘μ—…μ— λŒ€ν•œ PODS의 적용 κ°€λŠ₯성을 탐ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘