haebom
Sign In
Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xinyu Liu, Kechen Jiao, Chunyang Xiao, Runsong Zhao, Junhao Ruan, Bei Li, Jiahao Liu, Qifan Wang, Xin Chen, Jingang Wang, Chenglong Wang, Tong Xiao, JingBo Zhu
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯μ ν₯μμν€κΈ° μν μ¨-ν΄λ¦¬μ μ¦λ₯(OPD) κΈ°λ²μ΄ μ μ± κ° ν° μ°¨μ΄κ° μμ κ²½μ° λ°μνλ νμ΅μ μ΄λ €μμ ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ μ μλ Teacher-Guided Policy Optimization (TGPO)λ μ KL(RKL) κΈ°λ°μ νκ° μ§λ λ°©μμμ λ²μ΄λ, ν ν° μμ€μμ κ΅μ¬ λͺ¨λΈμ΄ μ§μ μμ± κ³Όμ μ μλ΄νκ³ κΆ€μ μμ€μ 보μκ³Ό κ²°ν©νμ¬ νμμ κ°μ ν©λλ€. μ€ν κ²°κ³Ό, TGPOλ κΈ°μ‘΄ RKL κΈ°λ° OPD λ°©λ²λ³΄λ€ μ°μν μ±λ₯μ 보μ΄λ©° λ€μν κ΅μ¬ λͺ¨λΈμμλ κ°κ±΄ν¨μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ μ± κ° μ°¨μ΄κ° ν° μν©μμλ ν¨κ³Όμ μΌλ‘ μλνλ μ¨-ν΄λ¦¬μ μ¦λ₯ κΈ°λ²μ κ°λ°νμ΅λλ€.
β’
ν ν° μμ€μ μ§μ μ μΈ μμ± μ§λμ κΆ€μ μμ€μ κ°ν νμ΅ λ³΄μμ κ²°ν©νμ¬ νμ΅ ν¨μ¨μ±μ λμμ΅λλ€.
β’
λ€μν κ΅μ¬ λͺ¨λΈμ λν΄ μΌκ΄λ μ±λ₯ ν₯μμ λ³΄μ¬ λ²μ©μ±μ κ°μ§λλ€.
β’
μ μλ κΈ°λ²μ μ€μ μ μ© μ κ³μ° 볡μ‘μ± λ° ν¨μ¨μ± μΈ‘λ©΄μμ μΆκ°μ μΈ μ΅μ νκ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage