Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning
Created by
Haebom
저자
Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun
SPEAR: Curriculum-based Self-Imitation Learning for Agentic LLMs
개요
강화 학습(RL)은 LLM의 장기적이고 희소한 보상이 있는 에이전트 태스크에서 전략적 도구 사용 능력을 향상시키는 데 지배적인 패러다임이지만, 탐색-활용의 근본적인 문제에 직면합니다. 본 논문에서는 정책 엔트로피를 통한 탐색을 자극하는 기존 연구의 문제점을 지적하고, 에이전트 자신의 경험을 바탕으로 엔트로피 붕괴나 발산 없이 점진적인 탐색-활용 균형을 목표로 합니다. SPEAR는 에이전트 LLM을 훈련하기 위한 커리큘럼 기반의 자기 모방 학습(SIL) 방식을 제안합니다. SPEAR는 SIL 프레임워크를 확장하여, 재현 버퍼에 자체 생성한 유망한 궤적을 저장하여 오프 폴리시 업데이트를 수행하며, 각 단계별로 균형 잡힌 엔트로피 범위를 유지하면서 정책을 점진적으로 발전시킵니다. SPEAR는 내재적 보상을 활용하여 기술 수준의 탐색을 촉진하고, SIL을 통해 액션 수준의 탐색을 용이하게 하는 커리큘럼을 통합합니다. 훈련 초반에는 보조 도구 호출 보상이 도구 사용 기술 축적에 중요한 역할을 하며, 훈련이 진행됨에 따라 자기 모방을 강화하여 기존 성공 패턴을 활용하고, 궤적 수준의 엔트로피 제어를 위해 과신을 억제하는 정규화를 도입합니다.