haebom
Sign In
Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun
π‘ κ°μ
λ³Έ μ°κ΅¬λ κΈ°μ‘΄ On-Policy Distillation (OPD)μ λμ λΆμ°, κΈ°μΈκΈ° μμ€, νμ λ³λͺ© νμκ³Ό κ°μ ꡬ쑰μ μ½μ μ ν΄κ²°νκΈ° μν΄ Asymmetric On-Policy Distillation (AOPD)μ μ μν©λλ€. AOPDλ μμ μ΄λμ΄ μλ μμμμ ν¨κ³Ό μλ μμ κ°ν λμ μ§μμ λ°μ° μ΅μνλ₯Ό μ¬μ©νμ¬ κΈμ μ κ°ν νμ΅μ μ μ§νλ©΄μ μ±λ₯μ ν₯μμν΅λλ€. μνμ μΆλ‘ λ²€μΉλ§ν¬ μ€ν κ²°κ³Ό, AOPDλ νμ€ OPD λλΉ μΌκ΄λκ² μ°μν μ±λ₯μ 보μμΌλ©°, νΉν μ΄κΈ°ν κ°λμ λ°λΌ 4.09% λ° 8.34%μ νκ· μ±λ₯ ν₯μμ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
AOPDλ κΈ°μ‘΄ OPDμ λ¨μ μ 극볡νκ³ κ°ν νμ΅ λ° λͺ¨λ°© νμ΅μ ν¨κ³Όμ μΌλ‘ κ²°ν©νμ¬ ν ν° μμ€μμ λ λμ μ±λ₯μ λ¬μ±ν©λλ€.
β’
AOPDλ νλ ¨ κ³Όμ μμ λ λμ μ μ± μνΈλ‘νΌλ₯Ό μ μ§νλ©°, μμ°¨μ λꡬ μ¬μ© μ μ μ λ λμ λ₯λ ₯ 보쑴μ 보μ¬μ€λλ€.
β’
μ μλ λ°©λ²λ‘ μ΄ λ€μν 볡μ‘ν νκ²½μμλ ν¨κ³Όμ μΈμ§, κ·Έλ¦¬κ³ λ€μν μ΄κΈ°ν 쑰건μ λν μ±λ₯ λ―Όκ°λ λΆμμ΄ μΆκ°μ μΌλ‘ νμν©λλ€.
PDF 보기
Made with Slashpage