Sign In

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ˜ 온-ν΄λ¦¬μ‹œ κ°•ν™” ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” 토큰 μˆ˜μ€€μ˜ μ–΄λ €μš΄ μ‹ μš© ν• λ‹Ή 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ SCOPE(Signal-Calibrated On-Policy Distillation Enhancement)λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SCOPEλŠ” λ“€μ–Ό 패슀 μ μ‘ν˜• κ°€μ€‘μΉ˜ λΆ€μ—¬ 방식을 톡해 λ‘€μ•„μ›ƒμ˜ 정확도에 따라 감독 경둜λ₯Ό λΆ„λ¦¬ν•˜κ³ , 각 κ²½λ‘œμ—μ„œ ꡐ사 λͺ¨λΈμ˜ 강점과 학생 λͺ¨λΈμ˜ 약점을 효과적으둜 ν™œμš©ν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 λ‹€μ–‘ν•œ μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ 경쟁λ ₯ μžˆλŠ” 기반 λͺ¨λΈ λŒ€λΉ„ 평균 11.42%의 Avg@32 및 7.30%의 Pass@32 ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
온-ν΄λ¦¬μ‹œ κ°•ν™” ν•™μŠ΅μ—μ„œ λ‘€μ•„μ›ƒμ˜ 정확성에 따라 감독 μ‹ ν˜Έλ₯Ό λ™μ μœΌλ‘œ μ‘°μ •ν•˜λŠ” 것이 ν•™μŠ΅ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
ꡐ사 λͺ¨λΈμ˜ 신뒰도와 학생 λͺ¨λΈμ˜ λΆˆν™•μ‹€μ„±μ„ λͺ¨λ‘ κ³ λ €ν•œ λ“€μ–Ό 패슀 μ μ‘ν˜• κ°€μ€‘μΉ˜ λΆ€μ—¬ 방식이 효과적인 토큰 μˆ˜μ€€ μ‹ μš© 할당을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” ν”„λ‘¬ν”„νŠΈλ³„ λ‚œμ΄λ„ 편차λ₯Ό κ³ λ €ν•œ κ·Έλ£Ή μˆ˜μ€€ μ •κ·œν™”λ₯Ό 톡해 λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” SCOPEλ₯Ό λ‹€λ₯Έ μ’…λ₯˜μ˜ κ°•ν™” ν•™μŠ΅ μ„€μ •μ΄λ‚˜ λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— ν™•μž₯ μ μš©ν•˜λŠ” λ°©μ•ˆμ„ 탐색할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘