haebom
Sign In
PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning
Created by
Haebom
Category
Empty
μ μ
Yu Li, Guangfeng Cai, Shengtian Yang, Han Luo, Shuo Han, Xu He, Dong Li, Lei Feng
π‘ κ°μ
LLM μμ΄μ νΈμ 볡μ‘ν λꡬ μ¬μ© κΈ°λ° μμ μν λ₯λ ₯μ΄ ν₯μλκ³ μμ§λ§, νμ 곡κ°μ μ‘°ν© νλ°λ‘ μΈν΄ μ₯κΈ°μ μΈ λ€λ¨κ³ λꡬ κ³νμ μ΄λ €μ΄ κ³Όμ λ‘ λ¨μμμ΅λλ€. λ³Έ λ Όλ¬Έμ μμ¬μ μΌλ‘ μ±κ³΅ν κΆ€μ μ μ¬μ¬μ© κ°λ₯ν λꡬ μ ν ν¨ν΄μ΄ ν¬ν¨λμ΄ μλ€λ μ μ μ°©μνμ¬, μ΄λ₯Ό νμ΅νκ³ μ μ± μ΅μ νμ νμ©νλ Pheromone-Guided Policy Optimization (PhGPO)μ μ μν©λλ€. PhGPOλ νμ΅λ νλ‘λͺ¬μ ν΅ν΄ λͺ ννκ³ μ¬μ¬μ© κ°λ₯ν κ°μ΄λμ€λ₯Ό μ 곡ν¨μΌλ‘μ¨ μ₯κΈ° λꡬ κ³νμ μ±λ₯μ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
κ³Όκ±° μ±κ³΅ κΆ€μ μμ μ»μ μ¬μ¬μ© κ°λ₯ν λꡬ μ ν ν¨ν΄μ νμ©νμ¬ μ₯κΈ° λꡬ κ³ν λ¬Έμ λ₯Ό ν΄κ²°ν μ μμ΅λλ€.
β’
κ°λ―Έ κ΅°μ§ μ΅μ νμμ μκ°μ λ°μ νλ‘λͺ¬ κ°λ μ ν΅ν΄ μ μ± μ΅μ ν κ³Όμ μ ν¨κ³Όμ μΌλ‘ μ λν μ μμ΅λλ€.
β’
μ μλ PhGPO λ°©λ²λ‘ μ μ€νμ μΌλ‘ μ₯κΈ° λꡬ κ³νμμ μ°μν μ±λ₯μ 보μ λλ€.
β’
νμ΅λ νλ‘λͺ¬μ ν¨κ³Όμ μΈ νν λ° νμ© λ°©λ²μ λν μΆκ° μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage