Sign In

OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ–Έμ–΄ λͺ¨λΈμ˜ μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ on-policy self-distillation(OPSD) κΈ°λ²•μ˜ ν›ˆλ ¨ λΆˆμ•ˆμ •μ„± 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ œμ•ˆλœ OGLS-SD ν”„λ ˆμž„μ›Œν¬λŠ” 검증 κ°€λŠ₯ν•œ κ²°κ³Ό 보상을 ν™œμš©ν•˜μ—¬ ν•™μŠ΅λœ λ‘œμ§“μ„ μ§€λ„ν•˜λ©°, 이λ₯Ό 톡해 성곡적인 ꢀ적과 μ‹€νŒ¨ν•œ κΆ€μ μ—μ„œ μœ λ„λœ λ‘œμ§“μ„ κ΅¬λΆ„ν•˜μ—¬ 토큰 μˆ˜μ€€μ˜ 지도 λ°©ν–₯을 μ„€μ •ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, OGLS-SDλŠ” OPSD의 ν›ˆλ ¨μ„ μ•ˆμ •ν™”μ‹œν‚€κ³  μ„±λŠ₯을 κ°œμ„ ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
On-policy self-distillationμ—μ„œ λ°œμƒν•˜λŠ” ν›ˆλ ¨ λΆˆμ•ˆμ •μ„± 및 νŒ¨ν„΄ 뢈일치 문제λ₯Ό 효과적으둜 μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
검증 κ°€λŠ₯ν•œ κ²°κ³Ό 보상을 μ΄μš©ν•œ λ‘œμ§“ μ œμ–΄ 방식이 μ–Έμ–΄ λͺ¨λΈμ˜ μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μˆ˜ν•™μ  μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μš°μˆ˜μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€λ₯Έ μ’…λ₯˜μ˜ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘