haebom
Sign In
MENTOR: Reinforcement Learning via Flexible Teacher-Optimized Rewards for Tool-Use Distillation
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
ChangSu Choi, Hoyun Song, Dongyeon Kim, WooHyeon Jung, Minkyung Cho, Sunjin Park, NohHyeob Bae, Seona Yu, KyungTae Lim
π‘ κ°μ
μ΄ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λꡬ μ¬μ© λ₯λ ₯μ μκ·λͺ¨ μΈμ΄ λͺ¨λΈ(SLM)λ‘ ν¨μ¨μ μΌλ‘ μ΄μ νλ κ²μ λͺ©νλ‘ ν©λλ€. κΈ°μ‘΄μ μ§λ νμ΅ λ°©μμ λ°μ΄ν° νΈν₯μΌλ‘ μΈν΄ μλ‘μ΄ μν©μ λν μΌλ°ν μ±λ₯μ΄ λ¨μ΄μ§λ€λ νκ³κ° μμ΅λλ€. μ΄μ μ°κ΅¬μ§μ μ μ°νλ©΄μλ κ³Όμ μ€μ¬μ μΈ λ³΄μ ꡬ쑰λ₯Ό κ°μ§ MENTORλΌλ μλ‘μ΄ κ°ννμ΅ λ°©λ²μ μ μνμ¬, μ격ν κΆ€μ μΌμΉ λμ κ΅μ¬μ μ°Έμ‘°λ₯Ό ν΅ν΄ λꡬ μ¬μ© νλμ μλ΄ν¨μΌλ‘μ¨ λ€μ΄μ€νΈλ¦Ό μ±λ₯κ³Ό νλ μΌκ΄μ± μ¬μ΄μ κ· νμ λ§μΆ₯λλ€.
π μμ¬μ λ° νκ³
β’
μκ·λͺ¨ μΈμ΄ λͺ¨λΈμ λꡬ μ¬μ© λ₯λ ₯ μ¦μ§ λ° μ€μ©μ± ν₯μ
β’
μ격ν κΆ€μ 볡μ λ³΄λ€ μ μ°ν λꡬ μ¬μ© μ λ ¬μ΄ μ μλ ₯ μλ μν λͺ¨λΈ κ°λ°μ λ ν¨κ³Όμ μμ μ μ¦
β’
κ²μ¦ κ°λ₯ν λꡬ μ¬μ© νκ²½μμμ μ±λ₯ ν₯μ νμΈ (OOD μ±λ₯ κ°μ )
β’
μ μλ λ°©λ²λ‘ μ μΌλ°μ μΈ μ μ© κ°λ₯μ±κ³Ό 볡μ‘ν μ€μ νκ²½μμμ μ±λ₯ κ²μ¦ νμ
PDF 보기
Made with Slashpage