Sign In

Fast and Effective On-policy Distillation from Reasoning Prefixes

Created by
  • Haebom
Category
Empty

μ €μž

Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler II, Qian Qian, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman

πŸ’‘ κ°œμš”

λ³Έ 논문은 토큰 μˆ˜μ€€μ˜ 지도 ν•™μŠ΅μ„ 톡해 학생 λͺ¨λΈμ˜ ꢀ적을 μ§€λ„ν•˜λŠ” 온-ν΄λ¦¬μ‹œ 증λ₯˜(OPD)의 ν›ˆλ ¨ λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 특히, ν›ˆλ ¨ μ‹ ν˜Έκ°€ 좜λ ₯의 접두사에 μ§‘μ€‘λœλ‹€λŠ” 관찰에 κΈ°λ°˜ν•˜μ—¬, 학생이 μƒμ„±ν•œ 좜λ ₯의 μ ‘λ‘μ‚¬μ—λ§Œ 증λ₯˜ λͺ©ν‘œλ₯Ό μ μš©ν•˜κ³  μƒ˜ν”Œλ§μ„ 쑰기에 μ’…λ£Œν•˜λŠ” '온-ν΄λ¦¬μ‹œ 접두사 증λ₯˜(on-policy prefix distillation, OPD)' 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 AI for Math 및 도메인 μ™Έ λ²€μΉ˜λ§ˆν¬μ—μ„œ 전체 OPD와 λ™λ“±ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©΄μ„œλ„ ν›ˆλ ¨ FLOP을 2λ°°μ—μ„œ 47λ°°κΉŒμ§€ μ€„μ΄λŠ” μ„±κ³Όλ₯Ό κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
효율적인 온-ν΄λ¦¬μ‹œ 증λ₯˜: μ œμ•ˆλœ 방법은 전체 ꢀ적 λŒ€μ‹  μ ‘λ‘μ‚¬λ§Œμ„ ν™œμš©ν•˜μ—¬ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚€λ©΄μ„œλ„ κΈ°μ‘΄ OPD의 μ„±λŠ₯을 μœ μ§€ν•©λ‹ˆλ‹€.
β€’
데이터 νš¨μœ¨μ„± κ°œμ„ : κΈ΄ 응닡 생성 μ‹œ λ°œμƒν•˜λŠ” 높은 ν›ˆλ ¨ λΉ„μš©μ„ μ ˆκ°ν•¨μœΌλ‘œμ¨, 더 적은 계산 μžμ›μœΌλ‘œλ„ 효과적인 λͺ¨λΈ ν•™μŠ΅μ΄ κ°€λŠ₯ν•΄μ§‘λ‹ˆλ‹€.
β€’
접두사 μ •λ³΄μ˜ μ€‘μš”μ„±: κΈ΄ 응닡 μƒμ„±μ—μ„œλ„ 초기 접두사가 학생 λͺ¨λΈμ˜ ν•™μŠ΅μ— 결정적인 역할을 ν•œλ‹€λŠ” 것을 μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
접두사 길이 μ΅œμ ν™”: μ ‘λ‘μ‚¬μ˜ 졜적 길이에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•˜λ©°, 이 길이가 λͺ¨λΈμ˜ μ„±λŠ₯κ³Ό νš¨μœ¨μ„±μ— λ―ΈμΉ˜λŠ” 영ν–₯을 더 깊이 탐ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘