Sign In

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•œ μƒˆλ‘œμš΄ 4단계 ν›„ν•™μŠ΅ μ›Œν¬ν”Œλ‘œμš°λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 μ›Œν¬ν”Œλ‘œμš°λŠ” μ œν•œλœ λ ˆμ΄λΈ” 데이터λ₯Ό 더 효과적으둜 ν™œμš©ν•˜μ—¬ κΈ°μ‘΄ 방식보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 ν¬μ†Œ 보상 κ°•ν™”ν•™μŠ΅, KL λ°œμ‚° μ›Œλ°μ—…, 온-ν΄λ¦¬μ‹œ 증λ₯˜, 그리고 μ΅œμ’… 학생 λͺ¨λΈμ— λŒ€ν•œ ν¬μ†Œ 보상 κ°•ν™”ν•™μŠ΅μ„ ν¬ν•¨ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
핡심 μ‹œμ‚¬μ  1: μ œμ•ˆλœ "ν¬μ†Œ-μ—μ„œ-λ°€μ§‘ν•œ 보상 원리" 기반 μ›Œν¬ν”Œλ‘œμš°λŠ” LLM μΆ”λ‘  μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚€λ©°, 특히 μˆ˜ν•™ 문제 ν•΄κ²°μ—μ„œ λ‘λ“œλŸ¬μ§„ μ„±κ³Όλ₯Ό λ³΄μž…λ‹ˆλ‹€.
β€’
핡심 μ‹œμ‚¬μ  2: 각 ν•™μŠ΅ λ‹¨κ³„λŠ” λͺ¨λΈ μ„±λŠ₯ ν–₯상에 ν•„μˆ˜μ μ΄λ©°, 특히 κ°•ν™”ν•™μŠ΅μœΌλ‘œ κ°œμ„ λœ ꡐ사 λͺ¨λΈκ³Ό KL λ°œμ‚° μ›Œλ°μ—…μ΄ μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ›Œν¬ν”Œλ‘œμš°μ˜ 각 단계가 λΆ€ν•˜λ₯Ό κ°λ‹Ήν•˜λŠ”μ§€ ν™•μΈν•˜λŠ” μ—„κ²©ν•œ μ‹€ν—˜μ€ μ΄λ£¨μ–΄μ‘ŒμœΌλ‚˜, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜μ™€ 더 λ³΅μž‘ν•œ νƒœμŠ€ν¬μ—μ„œμ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘