Sign In

On-Policy Supervised Fine-Tuning for Efficient Reasoning

Created by
  • Haebom
Category
Empty

μ €μž

Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye, Shuhao Li, Yunpu Ma, Wenjie Li, Xiaoyu Shen

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ³΅μž‘ν•œ κ°•ν™”ν•™μŠ΅(RL) 기법 λŒ€μ‹ , μ •ν™•μ„±κ³Ό 간결성을 λ™μ‹œμ— μ΅œμ ν™”ν•˜λŠ” 데 μ΄ˆμ μ„ 맞좘 'On-Policy Supervised Fine-Tuning (SFT)'λΌλŠ” λ‹¨μˆœν™”λœ ν›ˆλ ¨ μ „λž΅μ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 기쑴의 λ³΅μž‘ν•œ RL ν™•μž₯ κΈ°λ²•μ˜ λΆˆμ•ˆμ •μ„±μ„ ν•΄κ²°ν•˜κ³ , 두 κ°€μ§€ μ£Όμš” ꡬ성 μš”μ†Œ(KL μ •κ·œν™” 및 그룹별 μ •κ·œν™”)λ₯Ό μ œκ±°ν•˜λ©° 길이 νŽ˜λ„ν‹°λ₯Ό λ„μž…ν•˜μ—¬ 지도 ν•™μŠ΅ λ°©μ‹μœΌλ‘œ μ „ν™˜ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 계산 λΉ„μš©μ„ μ ˆκ°ν•˜λ©΄μ„œλ„ 정확도와 νš¨μœ¨μ„±μ˜ 졜적 κ· ν˜•μ μ„ λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ³΅μž‘ν•œ κ°•ν™”ν•™μŠ΅ 기반의 닀쀑 보상 λͺ©ν‘œ μ„€μ • λŒ€μ‹ , λ‹¨μˆœν™”λœ 지도 ν•™μŠ΅ 방식(On-Policy SFT)μœΌλ‘œλ„ μ •ν™•μ„±κ³Ό 간결성을 효과적으둜 μ΅œμ ν™”ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ On-Policy SFTλŠ” 계산 νš¨μœ¨μ„±(GPU λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰ κ°μ†Œ, 수렴 속도 ν–₯상) μΈ‘λ©΄μ—μ„œ κΈ°μ‘΄ RL 기반 방법둠 λŒ€λΉ„ μš°μˆ˜ν•˜λ©°, CoT(Chain-of-Thought) 길이도 크게 λ‹¨μΆ•μ‹œν‚€λ©΄μ„œ 정확도λ₯Ό μœ μ§€ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ 제거된 KL μ •κ·œν™”μ™€ 그룹별 μ •κ·œν™”μ˜ μ—­ν•  및 λ³΅μž‘ν•œ RL 보상 ꡬ쑰의 근본적인 λ¬Έμ œμ μ„ λͺ…ν™•νžˆ λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” On-Policy SFT의 μΌλ°˜μ„±μ„ λ‹€μ–‘ν•œ μΆ”λ‘  μž‘μ—… 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— λŒ€ν•΄ κ²€μ¦ν•˜κ³ , 더 λ°œμ „λœ 길이 μ œμ–΄ λ©”μ»€λ‹ˆμ¦˜μ„ νƒκ΅¬ν•˜λŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘