Sign In

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ ˆμ΄λΈ”μ΄ μ§€μ •λœ ν•™μŠ΅ 데이터가 μ œν•œμ μΈ μƒν™©μ—μ„œ, 각 ν•™μŠ΅ 데이터λ₯Ό λͺ¨λΈκ³Ό 보상 밀도에 κ°€μž₯ 효과적으둜 ν• λ‹Ήν•˜λŠ” 'ν¬μ†Œ-λ°€μ§‘ 보상 원리'λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 μ›λ¦¬λŠ” 탐색 λŠ₯λ ₯이 λ›°μ–΄λ‚œ λͺ¨λΈμ—λŠ” ν¬μ†Œν•œ μ‹œν€€μŠ€ 레벨 보상을, μ••μΆ• λͺ¨λΈμ—λŠ” λ°€μ§‘ν•œ 토큰 레벨 ꡐ사 감독을 μ‚¬μš©ν•˜λ©°, 이λ₯Ό 톡해 κΈ°μ‘΄ GRPO 방식보닀 λ›°μ–΄λ‚œ μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œμ‚¬μ  1: μ œν•œλœ λ ˆμ΄λΈ” 데이터λ₯Ό 효율적으둜 ν™œμš©ν•˜κΈ° μœ„ν•΄, 탐색 및 λ°œκ²¬μ—λŠ” ν¬μ†Œ 보상을, μ••μΆ• 및 μ „μ΄μ—λŠ” λ°€μ§‘ 보상을 μ‚¬μš©ν•˜λŠ” 단계적 접근이 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
μ‹œμ‚¬μ  2: 사전 ν•™μŠ΅λœ ꡐ사 λͺ¨λΈμ— ν¬μ†Œ 보상을 λ¨Όμ € μ μš©ν•˜μ—¬ 행동을 κ°œμ„ ν•œ ν›„, 이λ₯Ό λ°€μ§‘ ν˜•νƒœλ‘œ 학생 λͺ¨λΈμ— μ „λ‹¬ν•˜λŠ” 방식이 직접적인 GRPO μ μš©λ³΄λ‹€ 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ 4단계 μ›Œν¬ν”Œλ‘œμš°μ˜ 각 단계(ꡐ사 RL, forward-KL warmup, on-policy distillation, student RL)κ°€ λͺ¨λ‘ μ„±λŠ₯에 κΈ°μ—¬ν•˜λ―€λ‘œ, 각 λ‹¨κ³„μ˜ μ΅œμ ν™” 및 μƒν˜Έμž‘μš©μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘