본 논문은 대규모 언어 모델(LLM)을 상호작용형 에이전트로 훈련하는 과정에서 발생하는 장기적 의사결정 및 불확실한 환경 피드백과의 상호작용과 같은 고유한 과제들을 다룹니다. 정적 작업에서 강화 학습(RL)이 발전을 이끌었지만, 멀티턴 에이전트 RL 훈련은 아직 충분히 연구되지 않았습니다. 따라서 본 논문에서는 경로 수준 에이전트 RL을 위한 일반적인 프레임워크인 StarPO(State-Thinking-Actions-Reward Policy Optimization)를 제안하고, LLM 에이전트를 훈련하고 평가하기 위한 모듈식 시스템인 RAGEN을 소개합니다. 세 가지 양식화된 환경에 대한 연구를 통해 세 가지 핵심 결과를 도출합니다. 첫째, 에이전트 RL 훈련에서 보상 분산 절벽과 기울기 스파이크가 발생하는 Echo Trap 모드가 반복적으로 나타나는 것을 확인하고, 경로 필터링, 비평가 통합 및 분리된 클리핑을 사용하는 안정화된 변형인 StarPO-S를 통해 이를 해결합니다. 둘째, RL 전개의 형성은 다양한 초기 상태, 중간 상호 작용 세분성 및 더 빈번한 샘플링으로부터 이점을 얻을 수 있음을 발견했습니다. 셋째, 세밀하고 추론 인식 보상 신호 없이는 에이전트 추론이 멀티턴 RL을 통해 거의 나타나지 않으며, 표면적인 전략이나 환각적인 생각을 보일 수 있음을 보여줍니다. 코드와 환경은 https://github.com/RAGEN-AI/RAGEN 에서 확인할 수 있습니다.