Sign In

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κΈ°μ‘΄ On-Policy Distillation (OPD)의 높은 λΆ„μ‚°, 기울기 μ†Œμ‹€, 탐색 병λͺ© ν˜„μƒκ³Ό 같은 ꡬ쑰적 약점을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Asymmetric On-Policy Distillation (AOPD)을 μ œμ•ˆν•©λ‹ˆλ‹€. AOPDλŠ” 음의 이득이 μ—†λŠ” μ˜μ—­μ—μ„œ 효과 μ—†λŠ” 음의 κ°•ν™” λŒ€μ‹  지역적 λ°œμ‚° μ΅œμ†Œν™”λ₯Ό μ‚¬μš©ν•˜μ—¬ 긍정적 κ°•ν™” ν•™μŠ΅μ„ μœ μ§€ν•˜λ©΄μ„œ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. μˆ˜ν•™μ  μΆ”λ‘  벀치마크 μ‹€ν—˜ κ²°κ³Ό, AOPDλŠ” ν‘œμ€€ OPD λŒ€λΉ„ μΌκ΄€λ˜κ²Œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, 특히 μ΄ˆκΈ°ν™” 강도에 따라 4.09% 및 8.34%의 평균 μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AOPDλŠ” κΈ°μ‘΄ OPD의 단점을 κ·Ήλ³΅ν•˜κ³  κ°•ν™” ν•™μŠ΅ 및 λͺ¨λ°© ν•™μŠ΅μ„ 효과적으둜 κ²°ν•©ν•˜μ—¬ 토큰 μˆ˜μ€€μ—μ„œ 더 λ‚˜μ€ μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.
β€’
AOPDλŠ” ν›ˆλ ¨ κ³Όμ •μ—μ„œ 더 높은 μ •μ±… μ—”νŠΈλ‘œν”Όλ₯Ό μœ μ§€ν•˜λ©°, 순차적 도ꡬ μ‚¬μš© 적응 μ‹œ 더 λ‚˜μ€ λŠ₯λ ₯ 보쑴을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠이 λ‹€μ–‘ν•œ λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œλ„ νš¨κ³Όμ μΈμ§€, 그리고 λ‹€μ–‘ν•œ μ΄ˆκΈ°ν™” 쑰건에 λŒ€ν•œ μ„±λŠ₯ 민감도 뢄석이 μΆ”κ°€μ μœΌλ‘œ ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘