SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Created by

Haebom

저자

Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao

💡 개요

본 연구는 강화학습 기반 에이전트가 자원 제약 환경에서도 효과적으로 학습하고 발전할 수 있도록 하는 SEARL(Self-Evolving Agentic framework with Tool-Memory) 프레임워크를 제안합니다. SEARL은 기존 방식과 달리, 계획과 실행을 통합하는 구조화된 경험 메모리를 구축하여 새로운 상태 추상화를 제공하고 도구 재사용과 같은 맥락에서의 일반화를 촉진합니다. 이를 통해 에이전트는 과거 데이터에서 명시적인 지식을 추출하고, 궤적 간의 상관관계를 활용하여 희소한 보상 신호를 더욱 풍부하게 만듭니다.

🔑 시사점 및 한계

•

자원 제약 환경에서의 에이전트 학습 효율성 증대 가능성 제시

•

경험 메모리를 통한 계획-실행 통합 및 일반화 능력 향상

•

희소한 보상 신호 문제 완화를 위한 새로운 접근 방식 제공

•

향후 연구에서는 더 복잡한 실제 작업 환경에서의 적용 가능성 검증 및 확장 필요

PDF 보기

Made with Slashpage