EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Created by

Haebom

저자

Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy

💡 개요

본 논문은 복잡한 작업을 해결하기 위해 LLM 에이전트의 효과적인 도구 사용 정책 최적화 문제를 다룹니다. 이를 위해 네 가지 모듈(Planner, Selector, Caller, Synthesizer)로 분해된 도구 사용 정책을 진화적 패러다임을 통해 스스로 최적화하는 EvoTool 프레임워크를 제안합니다. EvoTool은 실패 모듈을 국소화하는 책임 할당 메커니즘, 해당 모듈만 편집하는 피드백 기반 돌연변이, 솔루션 다양성을 보장하는 선택 메커니즘을 통해 성능을 향상시킵니다.

🔑 시사점 및 한계

•

책임 할당 및 모듈별 최적화: 진단 트레이스를 활용하여 특정 모듈의 실패를 국소화하고 해당 모듈만 자연어 비판을 통해 편집하는 방식은 기존의 단일 또는 단일 측면 최적화 방식의 한계를 극복합니다.

•

다양성 유지 및 효율성: 다양한 후보를 보존하여 솔루션 다양성을 확보하고, 경쟁력 있는 성능과 뛰어난 효율성 및 전이성을 달성했습니다.

•

구체적인 모듈 분해 및 최적화 메커니즘: 네 가지 모듈로 정책을 분해하고 각 메커니즘(Trajectory-Grounded Blame Attribution, Feedback-Guided Targeted Mutation, Diversity-Aware Population Selection)을 통해 반복적으로 개선하는 구체적인 방법론을 제시했지만, 제안된 메커니즘의 일반화 가능성 및 복잡한 시나리오에서의 성능 검증은 추가 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage