SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Created by

Haebom

저자

Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao

💡 개요

본 논문은 강화학습 기반 자가 발전 에이전트 학습의 핵심 문제점인 자원 제약 환경에서의 배포 어려움과 결과 기반 보상의 희소성을 해결하고자 합니다. 이를 위해 SEARL이라는 도구-기억 기반 프레임워크를 제안하며, 계획과 실행을 통합하는 구조화된 경험 기억을 통해 도구 재사용 등 유사 맥락에서의 일반화를 촉진하고, 궤적 간의 상관관계를 활용하여 보상 신호를 조밀하게 만듭니다. 그 결과, 지식 추론 및 수학 과제에서 실용적이고 효율적인 학습을 달성했습니다.

🔑 시사점 및 한계

•

SEARL은 제한된 자원 환경에서도 효과적인 자가 발전 에이전트 학습이 가능함을 보여주었습니다.

•

구조화된 경험 기억과 궤적 간 상관관계 활용은 보상 신호의 희소성 문제를 완화하고 학습 효율성을 높입니다.

•

제안된 프레임워크의 성능을 다양한 실제 응용 분야에 적용하고, 기억 구조의 동적 확장성을 개선하는 연구가 필요합니다.

PDF 보기

Made with Slashpage