haebom
Sign In
Fast and Effective On-policy Distillation from Reasoning Prefixes
Created by
Haebom
Category
Empty
μ μ
Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler II, Qian Qian, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman
π‘ κ°μ
λ³Έ λ Όλ¬Έμ ν ν° μμ€μ μ§λ νμ΅μ ν΅ν΄ νμ λͺ¨λΈμ κΆ€μ μ μ§λνλ μ¨-ν΄λ¦¬μ μ¦λ₯(OPD)μ νλ ¨ λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. νΉν, νλ ¨ μ νΈκ° μΆλ ₯μ μ λμ¬μ μ§μ€λλ€λ κ΄μ°°μ κΈ°λ°νμ¬, νμμ΄ μμ±ν μΆλ ₯μ μ λμ¬μλ§ μ¦λ₯ λͺ©νλ₯Ό μ μ©νκ³ μνλ§μ μ‘°κΈ°μ μ’ λ£νλ 'μ¨-ν΄λ¦¬μ μ λμ¬ μ¦λ₯(on-policy prefix distillation, OPD)' λ°©λ²μ μ μν©λλ€. μ΄λ₯Ό ν΅ν΄ AI for Math λ° λλ©μΈ μΈ λ²€μΉλ§ν¬μμ μ 체 OPDμ λλ±ν μ±λ₯μ λ¬μ±νλ©΄μλ νλ ¨ FLOPμ 2λ°°μμ 47λ°°κΉμ§ μ€μ΄λ μ±κ³Όλ₯Ό κ±°λμμ΅λλ€.
π μμ¬μ λ° νκ³
β’
ν¨μ¨μ μΈ μ¨-ν΄λ¦¬μ μ¦λ₯
: μ μλ λ°©λ²μ μ 체 κΆ€μ λμ μ λμ¬λ§μ νμ©νμ¬ νλ ¨ ν¨μ¨μ±μ ν¬κ² ν₯μμν€λ©΄μλ κΈ°μ‘΄ OPDμ μ±λ₯μ μ μ§ν©λλ€.
β’
λ°μ΄ν° ν¨μ¨μ± κ°μ
: κΈ΄ μλ΅ μμ± μ λ°μνλ λμ νλ ¨ λΉμ©μ μ κ°ν¨μΌλ‘μ¨, λ μ μ κ³μ° μμμΌλ‘λ ν¨κ³Όμ μΈ λͺ¨λΈ νμ΅μ΄ κ°λ₯ν΄μ§λλ€.
β’
μ λμ¬ μ 보μ μ€μμ±
: κΈ΄ μλ΅ μμ±μμλ μ΄κΈ° μ λμ¬κ° νμ λͺ¨λΈμ νμ΅μ κ²°μ μ μΈ μν μ νλ€λ κ²μ μ€νμ μΌλ‘ μ μ¦ν©λλ€.
β’
μ λμ¬ κΈΈμ΄ μ΅μ ν
: μ λμ¬μ μ΅μ κΈΈμ΄μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμνλ©°, μ΄ κΈΈμ΄κ° λͺ¨λΈμ μ±λ₯κ³Ό ν¨μ¨μ±μ λ―ΈμΉλ μν₯μ λ κΉμ΄ νꡬν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage