Sign In

Proximal Supervised Fine-Tuning

Created by
  • Haebom
Category
Empty

μ €μž

Wenhong Zhu, Ruobing Xie, Rui Wang, Xingwu Sun, Di Wang, Pengfei Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 사전 ν•™μŠ΅λœ λͺ¨λΈμ„ 지도 ν•™μŠ΅μœΌλ‘œ λ―Έμ„Έ μ‘°μ •(SFT)ν•  λ•Œ λ°œμƒν•˜λŠ” 이전 λŠ₯λ ₯의 μ €ν•˜ 및 μΌλ°˜ν™” μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν”„λ‘μ‹œλ©€ 감독 λ―Έμ„Έ μ‘°μ •(PSFT) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ΄λŠ” κ°•ν™” ν•™μŠ΅μ˜ TRPO/PPOμ—μ„œ μ˜κ°μ„ λ°›μ•„, λ―Έμ„Έ μ‘°μ • κ³Όμ •μ—μ„œ λͺ¨λΈ μ •μ±…μ˜ κΈ‰κ²©ν•œ λ³€ν™”λ₯Ό μ œμ–΄ν•˜λ©΄μ„œλ„ 효율적인 ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. PSFTλŠ” μˆ˜ν•™ 및 인간 κ°€μΉ˜ μ˜μ—­μ—μ„œμ˜ μ‹€ν—˜μ„ 톡해 κΈ°μ‘΄ SFT와 λ™λ“±ν•œ μ„±λŠ₯을 λ³΄μ΄λ©΄μ„œλ„, μƒˆλ‘œμš΄ λ„λ©”μΈμ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³  μž₯κΈ° ν•™μŠ΅μ—μ„œλ„ μ•ˆμ •μ„±μ„ μœ μ§€ν•˜λŠ” κ²°κ³Όλ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
지도 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ • μ‹œ 이전 λŠ₯λ ₯ 보쑴 및 μΌλ°˜ν™” μ„±λŠ₯ ν–₯상을 μœ„ν•œ 효과적인 방법둠 μ œμ‹œ
β€’
κ°•ν™” ν•™μŠ΅μ˜ μ‹ λ’° μ˜μ—­ κ°œλ…μ„ λ„μž…ν•˜μ—¬ λ―Έμ„Έ μ‘°μ •μ˜ μ•ˆμ •μ„± 확보
β€’
후속 μ΅œμ ν™” 단계λ₯Ό μœ„ν•œ 더 κ²¬κ³ ν•œ 기반 제곡
β€’
PSFT의 이둠적 뢄석 및 λ‹€λ₯Έ μ’…λ₯˜μ˜ 사전 ν•™μŠ΅ λͺ¨λΈμ— λŒ€ν•œ 적용 κ°€λŠ₯μ„± 탐ꡬ
πŸ‘