haebom
Sign In
On-Policy Supervised Fine-Tuning for Efficient Reasoning
Created by
Haebom
Category
Empty
μ μ
Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye, Shuhao Li, Yunpu Ma, Wenjie Li, Xiaoyu Shen
π‘ κ°μ
λ³Έ λ Όλ¬Έμ 볡μ‘ν κ°ννμ΅(RL) κΈ°λ² λμ , μ νμ±κ³Ό κ°κ²°μ±μ λμμ μ΅μ ννλ λ° μ΄μ μ λ§μΆ 'On-Policy Supervised Fine-Tuning (SFT)'λΌλ λ¨μνλ νλ ¨ μ λ΅μ μ μν©λλ€. μ μλ λ°©λ²μ κΈ°μ‘΄μ 볡μ‘ν RL νμ₯ κΈ°λ²μ λΆμμ μ±μ ν΄κ²°νκ³ , λ κ°μ§ μ£Όμ κ΅¬μ± μμ(KL μ κ·ν λ° κ·Έλ£Ήλ³ μ κ·ν)λ₯Ό μ κ±°νλ©° κΈΈμ΄ νλν°λ₯Ό λμ νμ¬ μ§λ νμ΅ λ°©μμΌλ‘ μ νν©λλ€. μ΄λ₯Ό ν΅ν΄ κ³μ° λΉμ©μ μ κ°νλ©΄μλ μ νλμ ν¨μ¨μ±μ μ΅μ κ· νμ μ λ¬μ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
볡μ‘ν κ°ννμ΅ κΈ°λ°μ λ€μ€ 보μ λͺ©ν μ€μ λμ , λ¨μνλ μ§λ νμ΅ λ°©μ(On-Policy SFT)μΌλ‘λ μ νμ±κ³Ό κ°κ²°μ±μ ν¨κ³Όμ μΌλ‘ μ΅μ νν μ μμμ 보μ¬μ€λλ€.
β’
μ μλ On-Policy SFTλ κ³μ° ν¨μ¨μ±(GPU λ©λͺ¨λ¦¬ μ¬μ©λ κ°μ, μλ ΄ μλ ν₯μ) μΈ‘λ©΄μμ κΈ°μ‘΄ RL κΈ°λ° λ°©λ²λ‘ λλΉ μ°μνλ©°, CoT(Chain-of-Thought) κΈΈμ΄λ ν¬κ² λ¨μΆμν€λ©΄μ μ νλλ₯Ό μ μ§ν©λλ€.
β’
λ³Έ μ°κ΅¬μμ μ κ±°λ KL μ κ·νμ κ·Έλ£Ήλ³ μ κ·νμ μν λ° λ³΅μ‘ν RL 보μ ꡬ쑰μ κ·Όλ³Έμ μΈ λ¬Έμ μ μ λͺ νν λΆμνμ΅λλ€.
β’
ν₯ν μ°κ΅¬μμλ On-Policy SFTμ μΌλ°μ±μ λ€μν μΆλ‘ μμ λ° λͺ¨λΈ μν€ν μ²μ λν΄ κ²μ¦νκ³ , λ λ°μ λ κΈΈμ΄ μ μ΄ λ©μ»€λμ¦μ νꡬνλ κ²μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage