Sign In

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ΄ μ‹œκ°„ μΆ”λ‘  μž‘μ—…μ—μ„œ 온-ν΄λ¦¬μ‹œ 증λ₯˜(OPD)의 νš¨μœ¨μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Prune-OPDλΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Prune-OPDλŠ” 학생 λͺ¨λΈμ˜ 예츑이 ꡐ사 λͺ¨λΈμ˜ 사고 κ³Όμ •μ—μ„œ λ²—μ–΄λ‚˜λŠ” '접두사 λ“œλ¦¬ν”„νŠΈ'λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ κ°μ§€ν•˜κ³ , λ“œλ¦¬ν”„νŠΈκ°€ 심할 경우 μ‹ λ’°ν•  수 μ—†λŠ” 보상을 쀄이며 λ™μ μœΌλ‘œ 둀아웃을 μ€‘λ‹¨ν•˜μ—¬ 계산 μžμ›μ„ μ‹ λ’°ν•  수 μžˆλŠ” 감독에 μ§‘μ€‘μ‹œν‚΅λ‹ˆλ‹€. 이둜써 계산 νš¨μœ¨μ„±μ„ 높이고 μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
효율적인 μžμ› ν• λ‹Ή: Prune-OPDλŠ” ν•™μŠ΅ μ˜ˆμ‚°κ³Ό 감독 ν’ˆμ§ˆμ„ λ™μ μœΌλ‘œ μΌμΉ˜μ‹œμΌœ, 계산 μžμ›μ„ μ‹ λ’°ν•  수 μžˆλŠ” ꡐ사 감독에 효율적으둜 μž¬ν• λ‹Ήν•¨μœΌλ‘œμ¨ λΆˆν•„μš”ν•œ 계산 λ‚­λΉ„λ₯Ό μ€„μž…λ‹ˆλ‹€.
β€’
μ„±λŠ₯ ν–₯상 및 μœ μ§€: 접두사 λ“œλ¦¬ν”„νŠΈκ°€ λ°œμƒν•  경우 ν›ˆλ ¨ μ‹œκ°„μ„ 37.6%~68.0%κΉŒμ§€ λ‹¨μΆ•μ‹œν‚€λ©΄μ„œλ„, λ³΅μž‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ 였히렀 ν–₯μƒμ‹œν‚€λŠ” κ²°κ³Όλ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
동적 ν›ˆλ ¨ μ°½ 쑰절: 학생-ꡐ사 λͺ¨λΈ κ°„ ν˜Έν™˜μ„±μ΄ 높을 λ•ŒλŠ” ν›ˆλ ¨ 창을 ν™•μž₯ν•˜μ—¬ μž₯기적인 감독을 μžλ™μœΌλ‘œ μœ μ§€ν•¨μœΌλ‘œμ¨, λ‹¨μˆœνžˆ 둀아웃 길이λ₯Ό μ€„μ΄λŠ” 것이 μ•„λ‹ˆλΌ κ΅­μ†Œμ μœΌλ‘œ ν™œμš© κ°€λŠ₯ν•œ ꡐ사 보상에 계산을 μž¬μ§‘μ€‘μ‹œν‚€λŠ” λ°©μ‹μœΌλ‘œ OPDλ₯Ό κ°œμ„ ν•©λ‹ˆλ‹€.
β€’
λ“œλ¦¬ν”„νŠΈ 감지 μ •ν™•μ„± 및 μΌλ°˜ν™”: λ‹€μ–‘ν•œ ꡐ사-학생 쑰합에 걸쳐 Prune-OPD의 νš¨κ³Όκ°€ μž…μ¦λ˜μ—ˆμ§€λ§Œ, 접두사 λ“œλ¦¬ν”„νŠΈ 감지 λ©”μ»€λ‹ˆμ¦˜μ˜ μ •ν™•μ„±κ³Ό λ‹€μ–‘ν•œ μž‘μ—… 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성은 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘