haebom
Sign In
Reinforcement-aware Knowledge Distillation for LLM Reasoning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅(RL)μΌλ‘ λ―ΈμΈμ‘°μ λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λμ μΆλ‘ λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ§μ μ¦λ₯(Knowledge Distillation, KD) λ°©μμ μ μν©λλ€. κΈ°μ‘΄ KD λ°©μμ΄ RL νκ²½κ³Ό μ λ§μ§ μλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, RL κ³Όμ μ€μ μ μ± μ λ°μ΄νΈμ λμμ΄ λ λλ§ μ νμ μΌλ‘ κ΅μ¬λ₯Ό λͺ¨λ°©νλ RL-aware distillation (RLAD) λ°©λ²μ μ μν©λλ€. ν΅μ¬ κΈ°μ μΈ Trust Region Ratio Distillation (TRRD)μ κ΅μ¬μ νμ κ°μ KL λ°μ°μ λ체νμ¬, μ μ± μ λ°μ΄νΈλ₯Ό μμ μ μΌλ‘ μ λνκ³ νμ, νμ©, λͺ¨λ°© κ°μ κ· νμ λ§μΆ₯λλ€.
π μμ¬μ λ° νκ³
β’
κ°ννμ΅ κΈ°λ° LLMμ ν¨μ¨μ μΈ μ§μ μ¦λ₯λ₯Ό μν μλ‘μ΄ ν¨λ¬λ€μ μ μ
β’
μ μνλ RLAD λ°©λ²λ‘ μ΄ κΈ°μ‘΄ KD λ°©μλ³΄λ€ λ€μν μΆλ‘ λ₯λ ₯ λ²€μΉλ§ν¬μμ μ°μν μ±λ₯μ 보μ
β’
νμ, νμ©, λͺ¨λ°© κ°μ μμ°μ€λ¬μ΄ κ· ν μ‘°μ μ ν΅ν΄ μ μ± μ λ°μ΄νΈ μμ μ± ν₯μ
β’
λ€μν LLM μν€ν μ² λ° RL μκ³ λ¦¬μ¦μ λν μΌλ°ν κ°λ₯μ± λ° μΆκ°μ μΈ νμ΄νΌνλΌλ―Έν° νλ μ΅μ ν μ°κ΅¬ νμ
PDF 보기
Made with Slashpage