Sign In

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ On-Policy Distillation(OPD) 방법둠이 높은 λΆ„μ‚°, μ†Œμ‹€λ˜λŠ” 기울기, λΆ€μ‘±ν•œ 탐색과 같은 ꡬ쑰적 약점을 κ°€μ§€κ³  μžˆμŒμ„ μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλœ Asymmetric On-Policy Distillation(AOPD)은 뢀정적인 κ°•ν™” μ‹ ν˜Έλ₯Ό 지역적인 λ°œμ‚° μ΅œμ†Œν™”λ‘œ λŒ€μ²΄ν•˜μ—¬, 긍정적인 κ°•ν™” ν•™μŠ΅μ€ μœ μ§€ν•˜λ©΄μ„œ ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€. μˆ˜ν•™μ  μΆ”λ‘  벀치마크 μ‹€ν—˜μ—μ„œ AOPDλŠ” ν‘œμ€€ OPD λŒ€λΉ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AOPDλŠ” κΈ°μ‘΄ OPD의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  더 높은 ν•™μŠ΅ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 달성할 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 탐색 병λͺ© ν˜„μƒμ„ μ™„ν™”ν•˜κ³  ν•™μŠ΅ κ³Όμ •μ—μ„œ μ •μ±… μ—”νŠΈλ‘œν”Όλ₯Ό μœ μ§€ν•˜λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
μΆ”ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ λ„λ©”μΈμ—μ„œμ˜ AOPD의 μΌλ°˜ν™” μ„±λŠ₯ 및 졜적의 ν•˜μ΄νΌνŒŒλΌλ―Έν„° 탐색이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘