Sign In

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng

πŸ’‘ κ°œμš”

κΈ°μ‘΄μ—λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상을 μœ„ν•΄ 지도 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ •(SFT) ν›„ κ°•ν™” ν•™μŠ΅(RL)을 μ μš©ν•˜λŠ” 방식이 μΌλ°˜μ μ΄μ—ˆμœΌλ‚˜, SFT 단계가 RLκ³ΌλŠ” λ…λ¦½μ μœΌλ‘œ μ΅œμ ν™”λ˜μ–΄ 였히렀 RL μ„±λŠ₯ μ €ν•˜λ₯Ό μ•ΌκΈ°ν•˜λŠ” λ¬Έμ œκ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” SFT 데이터 뢄포와 RL μ •μ±… ν•™μŠ΅ 뢄포 κ°„μ˜ 뢈일치λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ€‘μš”λ„ μƒ˜ν”Œλ§μ„ ν™œμš©ν•˜μ—¬ SFT 손싀을 μž¬κ°€μ€‘ν•˜λŠ” PEAR(Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. PEARλŠ” 토큰, 블둝, μ‹œν€€μŠ€ μˆ˜μ€€μ—μ„œ 적용 κ°€λŠ₯ν•˜λ©°, SFT λ‹¨κ³„μ—μ„œλΆ€ν„° RL을 κ³ λ €ν•˜μ—¬ λͺ¨λΈμ„ 더 효과적으둜 μ€€λΉ„μ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
SFT λ‹¨κ³„μ—μ„œ RL을 염두에 λ‘” μ΅œμ ν™”λŠ” λͺ¨λΈμ˜ μ΅œμ’… RL μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
PEAR 기법은 κΈ°μ‘΄ SFT 과정에 적은 μ˜€λ²„ν—€λ“œλ‘œ ν†΅ν•©λ˜μ–΄ RL μ„±λŠ₯ ν–₯상에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ PEAR 기법은 μΆ”λ‘  기반 LLM의 후속 ν•™μŠ΅ κ³Όμ • μ „λ°˜μ„ ν†΅ν•©μ μœΌλ‘œ κ°œμ„ ν•˜λŠ” 데 효과적인 λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
PEAR κΈ°λ²•μ˜ μ„±λŠ₯은 μ μš©λ˜λŠ” 데이터셋 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— 따라 λ‹¬λΌμ§ˆ 수 있으며, λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘