Sign In

PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning

Created by
  • Haebom
Category
Empty

μ €μž

Yu Li, Guangfeng Cai, Shengtian Yang, Han Luo, Shuo Han, Xu He, Dong Li, Lei Feng

πŸ’‘ κ°œμš”

LLM μ—μ΄μ „νŠΈμ˜ λ³΅μž‘ν•œ 도ꡬ μ‚¬μš© 기반 μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯이 ν–₯μƒλ˜κ³  μžˆμ§€λ§Œ, 탐색 κ³΅κ°„μ˜ μ‘°ν•© 폭발둜 인해 μž₯기적인 닀단계 도ꡬ κ³„νšμ€ μ–΄λ €μš΄ 과제둜 λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μ—­μ‚¬μ μœΌλ‘œ μ„±κ³΅ν•œ ꢀ적에 μž¬μ‚¬μš© κ°€λŠ₯ν•œ 도ꡬ μ „ν™˜ νŒ¨ν„΄μ΄ ν¬ν•¨λ˜μ–΄ μžˆλ‹€λŠ” 점에 μ°©μ•ˆν•˜μ—¬, 이λ₯Ό ν•™μŠ΅ν•˜κ³  μ •μ±… μ΅œμ ν™”μ— ν™œμš©ν•˜λŠ” Pheromone-Guided Policy Optimization (PhGPO)을 μ œμ•ˆν•©λ‹ˆλ‹€. PhGPOλŠ” ν•™μŠ΅λœ 페둜λͺ¬μ„ 톡해 λͺ…ν™•ν•˜κ³  μž¬μ‚¬μš© κ°€λŠ₯ν•œ κ°€μ΄λ˜μŠ€λ₯Ό μ œκ³΅ν•¨μœΌλ‘œμ¨ μž₯κΈ° 도ꡬ κ³„νšμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ³Όκ±° 성곡 κΆ€μ μ—μ„œ 얻은 μž¬μ‚¬μš© κ°€λŠ₯ν•œ 도ꡬ μ „ν™˜ νŒ¨ν„΄μ„ ν™œμš©ν•˜μ—¬ μž₯κΈ° 도ꡬ κ³„νš 문제λ₯Ό ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
개미 κ΅°μ§‘ μ΅œμ ν™”μ—μ„œ μ˜κ°μ„ 받은 페둜λͺ¬ κ°œλ…μ„ 톡해 μ •μ±… μ΅œμ ν™” 과정을 효과적으둜 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ PhGPO 방법둠은 μ‹€ν—˜μ μœΌλ‘œ μž₯κΈ° 도ꡬ κ³„νšμ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.
β€’
ν•™μŠ΅λœ 페둜λͺ¬μ˜ 효과적인 ν‘œν˜„ 및 ν™œμš© 방법에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘