Sign In

Flexible Entropy Control in RLVR with a Gradient-Preserving Perspective

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” μ€‘μš”ν•œ 방법둠인 RLVR(Reinforcement Learning with Verifiable Rewards)μ—μ„œ λ°œμƒν•˜λŠ” μ •μ±… μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄ 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 연ꡬ진은 Gradient-Preserving Clipping κ΄€μ μ—μ„œ μ—”νŠΈλ‘œν”Ό μ œμ–΄ 방식을 μž¬μ •λ¦½ν•˜κ³ , 동적 클리핑 μž„κ³„κ°’μ„ ν™œμš©ν•œ μƒˆλ‘œμš΄ 규제 λ©”μ»€λ‹ˆμ¦˜κ³Ό λ‹€μ–‘ν•œ μ—”νŠΈλ‘œν”Ό μ œμ–΄ μ „λž΅μ„ μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄λ₯Ό 효과적으둜 μ™„ν™”ν•˜κ³  μ—¬λŸ¬ λ²€μΉ˜λ§ˆν¬μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RLVRμ—μ„œ λ°œμƒν•˜λŠ” μ •μ±… μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄ ν˜„μƒμ˜ 원인이 Gradient-Preserving Clippingκ³Ό λ°€μ ‘ν•˜κ²Œ κ΄€λ ¨λ˜μ–΄ μžˆμŒμ„ 이둠적, κ²½ν—˜μ μœΌλ‘œ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ€‘μš” μƒ˜ν”Œλ§ λΉ„μœ¨ μ˜μ—­λ³„ μ—”νŠΈλ‘œν”Ό 기여도λ₯Ό λΆ„μ„ν•˜μ—¬ 동적 클리핑 μž„κ³„κ°’ 기반의 μ—”νŠΈλ‘œν”Ό μ œμ–΄ λ©”μ»€λ‹ˆμ¦˜μ„ μƒˆλ‘­κ²Œ μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 동적 μ—”νŠΈλ‘œν”Ό μ œμ–΄ μ „λž΅(증감 ν›„ κ°μ†Œ, κ°μ†Œ-증감-κ°μ†Œ, 진동 κ°μ†Œ)이 μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄λ₯Ό 효과적으둜 μ™„ν™”ν•˜κ³  LLM의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΄μ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 동적 μ—”νŠΈλ‘œν”Ό μ œμ–΄ μ „λž΅λ“€μ΄ νŠΉμ • μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄ νŒ¨ν„΄μ—λ§Œ μ΅œμ ν™”λ  수 있으며, 일반적인 LLM ν•™μŠ΅ 상황에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 더 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘