Sign In

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li

개요

본 논문은 대규모 언어 모델(LLM)을 상호작용형 에이전트로 훈련하는 과정에서 발생하는 장기적 의사결정 및 불확실한 환경 피드백과의 상호작용과 같은 고유한 과제들을 다룹니다. 정적 작업에서 강화 학습(RL)이 발전을 이끌었지만, 멀티턴 에이전트 RL 훈련은 아직 충분히 연구되지 않았습니다. 따라서 본 논문에서는 경로 수준 에이전트 RL을 위한 일반적인 프레임워크인 StarPO(State-Thinking-Actions-Reward Policy Optimization)를 제안하고, LLM 에이전트를 훈련하고 평가하기 위한 모듈식 시스템인 RAGEN을 소개합니다. 세 가지 양식화된 환경에 대한 연구를 통해 세 가지 핵심 결과를 도출합니다. 첫째, 에이전트 RL 훈련에서 보상 분산 절벽과 기울기 스파이크가 발생하는 Echo Trap 모드가 반복적으로 나타나는 것을 확인하고, 경로 필터링, 비평가 통합 및 분리된 클리핑을 사용하는 안정화된 변형인 StarPO-S를 통해 이를 해결합니다. 둘째, RL 전개의 형성은 다양한 초기 상태, 중간 상호 작용 세분성 및 더 빈번한 샘플링으로부터 이점을 얻을 수 있음을 발견했습니다. 셋째, 세밀하고 추론 인식 보상 신호 없이는 에이전트 추론이 멀티턴 RL을 통해 거의 나타나지 않으며, 표면적인 전략이나 환각적인 생각을 보일 수 있음을 보여줍니다. 코드와 환경은 https://github.com/RAGEN-AI/RAGEN 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
StarPO 및 RAGEN은 LLM 에이전트 훈련을 위한 효과적인 프레임워크 및 시스템을 제공합니다.
Echo Trap 현상을 분석하고 이를 해결하기 위한 StarPO-S를 제시하여 LLM 에이전트 훈련의 안정성을 향상시켰습니다.
다양한 초기 상태, 중간 상호 작용 세분성, 빈번한 샘플링의 중요성을 보여주어 RL 전개 형성 전략 개선에 기여합니다.
세밀한 추론 인식 보상 신호의 중요성을 강조하여 향후 연구 방향을 제시합니다.
한계점:
제시된 세 가지 양식화된 환경은 실제 세계의 복잡성을 완전히 반영하지 못할 수 있습니다.
StarPO-S의 성능 향상이 모든 상황에서 일반화될 수 있는지에 대한 추가 연구가 필요합니다.
더욱 복잡하고 현실적인 환경에서의 성능 평가가 필요합니다.
세밀하고 추론 인식 보상 신호를 자동으로 생성하는 방법에 대한 추가적인 연구가 필요합니다.
👍