Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
개요
본 논문은 장기적인, 희소 보상 에이전트 작업에서 LLM의 전략적 도구 사용 능력을 향상시키기 위한 강화 학습(RL)의 탐색-활용 균형 문제를 해결하기 위해, 에이전트의 경험을 기반으로 정책 엔트로피를 점진적으로 조절하는 자체 모방 학습(Self-Imitation Learning, SIL) 기반 방법인 SPEAR를 제안한다. SPEAR는 초기에 잦은 도구 상호작용을 통해 탐색을 가속화하고, 환경에 대한 숙련도가 높아짐에 따라 성공적인 전술의 활용을 강화하도록 설계되었다.
시사점, 한계점
•
SPEAR는 ALFWorld, WebShop, AIME24, AIME25와 같은 다양한 환경에서 기존 방법론(GRPO, GiGPO, Dr.BoT) 대비 성공률을 최대 16.1%, 20.7%, 3.8%, 6.1%까지 향상시키는 효과를 보였다.
•
SPEAR는 이론적 복잡성 증가가 10%-25%에 불과하며, 실제 실행 시 런타임 오버헤드가 거의 없어 플러그 앤 플레이 방식의 확장성을 제공한다.
•
논문에서 제시된 구체적인 환경 및 작업에 한정되어, 일반화 가능성에 대한 추가적인 연구가 필요하다.
•
자체 모방 학습 기반 방법론의 한계로, 학습 데이터의 품질에 따라 성능이 크게 영향을 받을 수 있다.