Sign In

Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xinyu Liu, Kechen Jiao, Chunyang Xiao, Runsong Zhao, Junhao Ruan, Bei Li, Jiahao Liu, Qifan Wang, Xin Chen, Jingang Wang, Chenglong Wang, Tong Xiao, JingBo Zhu

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ 온-ν΄λ¦¬μ‹œ 증λ₯˜(OPD) 기법이 μ •μ±… κ°„ 큰 차이가 μžˆμ„ 경우 λ°œμƒν•˜λŠ” ν•™μŠ΅μ˜ 어렀움을 ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μ œμ•ˆλœ Teacher-Guided Policy Optimization (TGPO)λŠ” μ—­ KL(RKL) 기반의 평가 지도 λ°©μ‹μ—μ„œ λ²—μ–΄λ‚˜, 토큰 μˆ˜μ€€μ—μ„œ ꡐ사 λͺ¨λΈμ΄ 직접 생성 과정을 μ•ˆλ‚΄ν•˜κ³  ꢀ적 μˆ˜μ€€μ˜ 보상과 κ²°ν•©ν•˜μ—¬ 탐색을 κ°œμ„ ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, TGPOλŠ” κΈ°μ‘΄ RKL 기반 OPD 방법보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이며 λ‹€μ–‘ν•œ ꡐ사 λͺ¨λΈμ—μ„œλ„ 강건함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ •μ±… κ°„ 차이가 큰 μƒν™©μ—μ„œλ„ 효과적으둜 μž‘λ™ν•˜λŠ” 온-ν΄λ¦¬μ‹œ 증λ₯˜ 기법을 κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
토큰 μˆ˜μ€€μ˜ 직접적인 생성 지도와 ꢀ적 μˆ˜μ€€μ˜ κ°•ν™” ν•™μŠ΅ 보상을 κ²°ν•©ν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ ꡐ사 λͺ¨λΈμ— λŒ€ν•΄ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 보여 λ²”μš©μ„±μ„ κ°€μ§‘λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ κΈ°λ²•μ˜ μ‹€μ œ 적용 μ‹œ 계산 λ³΅μž‘μ„± 및 νš¨μœ¨μ„± μΈ‘λ©΄μ—μ„œ 좔가적인 μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘