haebom
Sign In
Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhicheng Yang, Zhijiang Guo, Yifan Song, Minrui Xu, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κΈ΄ μκ° μΆλ‘ μμ μμ μ¨-ν΄λ¦¬μ μ¦λ₯(OPD)μ ν¨μ¨μ± λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ Prune-OPDλΌλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. Prune-OPDλ νμ λͺ¨λΈμ μμΈ‘μ΄ κ΅μ¬ λͺ¨λΈμ μ¬κ³ κ³Όμ μμ λ²μ΄λλ 'μ λμ¬ λ리ννΈ'λ₯Ό μ€μκ°μΌλ‘ κ°μ§νκ³ , λ리ννΈκ° μ¬ν κ²½μ° μ λ’°ν μ μλ 보μμ μ€μ΄λ©° λμ μΌλ‘ λ‘€μμμ μ€λ¨νμ¬ κ³μ° μμμ μ λ’°ν μ μλ κ°λ μ μ§μ€μν΅λλ€. μ΄λ‘μ¨ κ³μ° ν¨μ¨μ±μ λμ΄κ³ μ±λ₯μ μ μ§νκ±°λ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
ν¨μ¨μ μΈ μμ ν λΉ
: Prune-OPDλ νμ΅ μμ°κ³Ό κ°λ νμ§μ λμ μΌλ‘ μΌμΉμμΌ, κ³μ° μμμ μ λ’°ν μ μλ κ΅μ¬ κ°λ μ ν¨μ¨μ μΌλ‘ μ¬ν λΉν¨μΌλ‘μ¨ λΆνμν κ³μ° λλΉλ₯Ό μ€μ λλ€.
β’
μ±λ₯ ν₯μ λ° μ μ§
: μ λμ¬ λ리ννΈκ° λ°μν κ²½μ° νλ ¨ μκ°μ 37.6%~68.0%κΉμ§ λ¨μΆμν€λ©΄μλ, 볡μ‘ν λ²€μΉλ§ν¬μμ μ±λ₯μ μ μ§νκ±°λ μ€νλ € ν₯μμν€λ κ²°κ³Όλ₯Ό 보μ¬μ€λλ€.
β’
λμ νλ ¨ μ°½ μ‘°μ
: νμ-κ΅μ¬ λͺ¨λΈ κ° νΈνμ±μ΄ λμ λλ νλ ¨ μ°½μ νμ₯νμ¬ μ₯κΈ°μ μΈ κ°λ μ μλμΌλ‘ μ μ§ν¨μΌλ‘μ¨, λ¨μν λ‘€μμ κΈΈμ΄λ₯Ό μ€μ΄λ κ²μ΄ μλλΌ κ΅μμ μΌλ‘ νμ© κ°λ₯ν κ΅μ¬ 보μμ κ³μ°μ μ¬μ§μ€μν€λ λ°©μμΌλ‘ OPDλ₯Ό κ°μ ν©λλ€.
β’
λ리ννΈ κ°μ§ μ νμ± λ° μΌλ°ν
: λ€μν κ΅μ¬-νμ μ‘°ν©μ κ±Έμ³ Prune-OPDμ ν¨κ³Όκ° μ μ¦λμμ§λ§, μ λμ¬ λ리ννΈ κ°μ§ λ©μ»€λμ¦μ μ νμ±κ³Ό λ€μν μμ λ° λͺ¨λΈ μν€ν μ²μ λν μΌλ°ν κ°λ₯μ±μ μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage