Sign In

Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxuan Jiang, Runchao Li, Shubhashis Roy Dipta, Dawei Li, Zhao Yang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 온-ν΄λ¦¬μ‹œ 증λ₯˜(OPD)μ—μ„œ λ°œμƒν•˜λŠ” 고손싀 토큰, 즉 '락 토큰(Rock Tokens)'의 역할을 규λͺ…ν•©λ‹ˆλ‹€. 락 토큰은 ν•™μŠ΅μ΄ 수렴된 후에도 높은 손싀을 μœ μ§€ν•˜λ©°, ν•™μŠ΅ κ³Όμ •μ—μ„œ 크게 κ°œμ„ λ˜μ§€ μ•Šμ§€λ§Œ λͺ¨λΈμ˜ μ „λ°˜μ μΈ μΆ”λ‘  μ„±λŠ₯μ—λŠ” λ―Έλ―Έν•œ κΈ°μ—¬λ§Œ ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ°œκ²¬μ€ 증λ₯˜ κ³Όμ •μ—μ„œ λΆˆν•„μš”ν•œ μ΅œμ ν™” λ…Έλ ₯을 쀄이고 효율적인 λͺ¨λΈ 정렬을 μœ„ν•œ μƒˆλ‘œμš΄ λ°©μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
온-ν΄λ¦¬μ‹œ 증λ₯˜ κ³Όμ •μ—μ„œ ν•™μŠ΅μ΄ 잘 λ˜μ§€ μ•ŠλŠ” '락 토큰'이 μƒλ‹Ήμˆ˜ μ‘΄μž¬ν•˜λ©°, 이듀은 전체 κ·Έλž˜λ””μ–ΈνŠΈμ˜ 큰 뢀뢄을 μ°¨μ§€ν•˜μ§€λ§Œ μ‹€μ œ μ„±λŠ₯ ν–₯μƒμ—λŠ” κΈ°μ—¬ν•˜μ§€ λͺ»ν•œλ‹€λŠ” 점을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
'락 토큰'의 μ‘΄μž¬λŠ” 증λ₯˜ μ‹œ λͺ¨λ“  토큰에 λ™μΌν•œ κ°€μ€‘μΉ˜λ₯Ό λΆ€μ—¬ν•˜λŠ” 것이 λΉ„νš¨μœ¨μ μΌ 수 μžˆμŒμ„ μ‹œμ‚¬ν•˜λ©°, μ΄λŸ¬ν•œ 'μž₯μ• λ¬Ό'을 μ „λž΅μ μœΌλ‘œ λ¬΄μ‹œν•¨μœΌλ‘œμ¨ λͺ¨λΈ μ •λ ¬ 과정을 νš¨μœ¨ν™”ν•  수 μžˆλŠ” κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” '락 토큰'이 μ™œ λ°œμƒν•˜λŠ”μ§€μ— λŒ€ν•œ 근본적인 원인 뢄석이 더 ν•„μš”ν•˜λ©°, μ‹€μ œ λͺ¨λΈ ν•™μŠ΅ 및 배포 ν™˜κ²½μ—μ„œ μ΄λŸ¬ν•œ μ „λž΅μ΄ μ–Όλ§ˆλ‚˜ νš¨κ³Όμ μΌμ§€μ— λŒ€ν•œ 좔가적인 검증이 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘