Sign In

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yiqiao Jin, Yiyang Wang, Lucheng Fu, Yijia Xiao, Yinyi Luo, Haoxin Liu, B. Aditya Prakash, Josiah Hester, Jindong Wang, Srijan Kumar

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)을 μ™ΈλΆ€μ˜ 더 κ°•λ ₯ν•œ λͺ¨λΈ 없이 μ μ‘μ‹œν‚€λŠ” μœ λ§ν•œ 방법인 자기 증λ₯˜(Self-Distillation, SD)λ₯Ό μœ„ν•œ 톡합 ν”„λ ˆμž„μ›Œν¬μΈ UniSDλ₯Ό μ œμ•ˆν•œλ‹€. UniSDλŠ” supervision의 μ‹ λ’°μ„±, ν‘œν˜„ 일치, ν›ˆλ ¨ μ•ˆμ •μ„±μ„ κ°œμ„ ν•˜κΈ° μœ„ν•΄ 닀쀑 ꡐ사 λ™μ˜, EMA ꡐ사 μ•ˆμ •ν™”, 토큰 μˆ˜μ€€ λŒ€μ‘° ν•™μŠ΅, νŠΉμ§• λ§€μΉ­, λ°œμ‚° 클리핑 λ“± μƒν˜Έ 보완적인 λ©”μ»€λ‹ˆμ¦˜μ„ ν†΅ν•©ν•œλ‹€. 이λ₯Ό 톡해 LLM μ μ‘μ˜ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
자기 증λ₯˜λŠ” μ™ΈλΆ€μ˜ 더 κ°•λ ₯ν•œ ꡐ사 λͺ¨λΈ 없이도 LLM의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μ‹€μš©μ μ΄κ³  μ œμ–΄ κ°€λŠ₯ν•œ μ ‘κ·Ό 방식이닀.
β€’
UniSD ν”„λ ˆμž„μ›Œν¬λŠ” SD의 λ‹€μ–‘ν•œ ꡬ성 μš”μ†Œλ“€μ˜ νš¨κ³Όμ™€ μƒν˜Έμž‘μš©μ„ μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜μ—¬ 졜적의 μ„±λŠ₯을 λ‹¬μ„±ν•˜λŠ” 톡합 νŒŒμ΄ν”„λΌμΈμ„ κ΅¬μΆ•ν•˜λŠ” 데 κΈ°μ—¬ν•œλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ 각 ꡬ성 μš”μ†Œμ˜ νš¨κ³Όμ™€ μƒν˜Έμž‘μš©μ€ νŠΉμ • μž‘μ—… 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— 따라 λ‹¬λΌμ§ˆ 수 있으며, λ²”μš©μ μΈ μ μš©μ„ μœ„ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•˜λ‹€.
πŸ‘