Sign In

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Created by
  • Haebom
Category
Empty

μ €μž

Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ³΅μž‘ν•œ μž‘μ—…μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ LLM μ—μ΄μ „νŠΈμ˜ 효과적인 도ꡬ μ‚¬μš© μ •μ±… μ΅œμ ν™” 문제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λ„€ κ°€μ§€ λͺ¨λ“ˆ(Planner, Selector, Caller, Synthesizer)둜 λΆ„ν•΄λœ 도ꡬ μ‚¬μš© 정책을 진화적 νŒ¨λŸ¬λ‹€μž„μ„ 톡해 슀슀둜 μ΅œμ ν™”ν•˜λŠ” EvoTool ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. EvoTool은 μ‹€νŒ¨ λͺ¨λ“ˆμ„ κ΅­μ†Œν™”ν•˜λŠ” μ±…μž„ ν• λ‹Ή λ©”μ»€λ‹ˆμ¦˜, ν•΄λ‹Ή λͺ¨λ“ˆλ§Œ νŽΈμ§‘ν•˜λŠ” ν”Όλ“œλ°± 기반 λŒμ—°λ³€μ΄, μ†”λ£¨μ…˜ 닀양성을 보μž₯ν•˜λŠ” 선택 λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ±…μž„ ν• λ‹Ή 및 λͺ¨λ“ˆλ³„ μ΅œμ ν™”: 진단 트레이슀λ₯Ό ν™œμš©ν•˜μ—¬ νŠΉμ • λͺ¨λ“ˆμ˜ μ‹€νŒ¨λ₯Ό κ΅­μ†Œν™”ν•˜κ³  ν•΄λ‹Ή λͺ¨λ“ˆλ§Œ μžμ—°μ–΄ λΉ„νŒμ„ 톡해 νŽΈμ§‘ν•˜λŠ” 방식은 기쑴의 단일 λ˜λŠ” 단일 μΈ‘λ©΄ μ΅œμ ν™” λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘μ„± μœ μ§€ 및 νš¨μœ¨μ„±: λ‹€μ–‘ν•œ 후보λ₯Ό λ³΄μ‘΄ν•˜μ—¬ μ†”λ£¨μ…˜ 닀양성을 ν™•λ³΄ν•˜κ³ , 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯κ³Ό λ›°μ–΄λ‚œ νš¨μœ¨μ„± 및 전이성을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ꡬ체적인 λͺ¨λ“ˆ λΆ„ν•΄ 및 μ΅œμ ν™” λ©”μ»€λ‹ˆμ¦˜: λ„€ κ°€μ§€ λͺ¨λ“ˆλ‘œ 정책을 λΆ„ν•΄ν•˜κ³  각 λ©”μ»€λ‹ˆμ¦˜(Trajectory-Grounded Blame Attribution, Feedback-Guided Targeted Mutation, Diversity-Aware Population Selection)을 톡해 반볡적으둜 κ°œμ„ ν•˜λŠ” ꡬ체적인 방법둠을 μ œμ‹œν–ˆμ§€λ§Œ, μ œμ•ˆλœ λ©”μ»€λ‹ˆμ¦˜μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ μ„±λŠ₯ 검증은 μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘