Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

Created by
  • Haebom

저자

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

SPEAR: Curriculum-based Self-Imitation Learning for Agentic LLMs

개요

강화 학습(RL)은 LLM의 장기적이고 희소한 보상이 있는 에이전트 태스크에서 전략적 도구 사용 능력을 향상시키는 데 지배적인 패러다임이지만, 탐색-활용의 근본적인 문제에 직면합니다. 본 논문에서는 정책 엔트로피를 통한 탐색을 자극하는 기존 연구의 문제점을 지적하고, 에이전트 자신의 경험을 바탕으로 엔트로피 붕괴나 발산 없이 점진적인 탐색-활용 균형을 목표로 합니다. SPEAR는 에이전트 LLM을 훈련하기 위한 커리큘럼 기반의 자기 모방 학습(SIL) 방식을 제안합니다. SPEAR는 SIL 프레임워크를 확장하여, 재현 버퍼에 자체 생성한 유망한 궤적을 저장하여 오프 폴리시 업데이트를 수행하며, 각 단계별로 균형 잡힌 엔트로피 범위를 유지하면서 정책을 점진적으로 발전시킵니다. SPEAR는 내재적 보상을 활용하여 기술 수준의 탐색을 촉진하고, SIL을 통해 액션 수준의 탐색을 용이하게 하는 커리큘럼을 통합합니다. 훈련 초반에는 보조 도구 호출 보상이 도구 사용 기술 축적에 중요한 역할을 하며, 훈련이 진행됨에 따라 자기 모방을 강화하여 기존 성공 패턴을 활용하고, 궤적 수준의 엔트로피 제어를 위해 과신을 억제하는 정규화를 도입합니다.

시사점, 한계점

시사점:
RL 기반 LLM 훈련의 탐색-활용 딜레마 해결을 위한 새로운 방법론 제시.
커리큘럼 기반의 자기 모방 학습(SIL) 방식을 통해 탐색과 활용의 균형을 맞춤.
도구 사용 기술 습득을 위한 단계적 학습 접근 방식 제시.
훈련 안정성을 위한 다양한 정규화 기법 도입.
한계점:
구체적인 실험 결과 및 성능 비교에 대한 정보 부족 (논문 요약에서 확인 불가).
다른 RL 기반 방법론과의 비교 분석 정보 부재.
특정 환경(장기적이고 희소한 보상 환경)에서의 성능에 대한 제한적인 정보.
👍