Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Created by
  • Haebom

저자

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

개요

AgentGym-RL은 지도 학습 미세 조정 없이 다양한 현실 환경에서 복잡한 실세계 문제를 해결하기 위해 일련의 지능적인 의사결정을 내릴 수 있는 자율적인 LLM 에이전트를 처음부터 훈련하기 위한 새로운 강화 학습 프레임워크입니다. 모듈식이고 분리된 아키텍처를 특징으로 하며, 다양한 실제 시나리오를 포함하고 주요 강화 학습 알고리즘을 지원합니다. 탐색-활용 균형과 안정적인 강화 학습 최적화를 위해 설계된 ScalingInter-RL 훈련 방식을 제안합니다. 초기에는 상호 작용 수를 제한하여 활용에 중점을 두고, 점차적으로 더 넓은 지평을 통해 탐색으로 전환하여 다양한 문제 해결 전략을 장려합니다. 다양한 환경에서 27개의 작업에 대해 상용 모델과 동등하거나 그 이상의 성능을 보이는 에이전트를 훈련하는 실험 결과를 제시하며, 코드와 데이터셋을 포함한 전체 AgentGym-RL 프레임워크를 오픈소스로 공개할 예정입니다.

시사점, 한계점

시사점:
지도 학습 미세 조정 없이 다양한 환경에서 복잡한 실세계 문제 해결이 가능한 자율 LLM 에이전트 훈련 프레임워크 제시
모듈식 아키텍처를 통해 유연성과 확장성 확보
탐색-활용 균형을 고려한 ScalingInter-RL 훈련 방식 제안으로 안정적인 강화 학습 최적화 및 다양한 문제 해결 전략 장려
27개의 다양한 작업에서 상용 모델과 동등하거나 우수한 성능 검증
AgentGym-RL 프레임워크의 오픈소스 공개를 통한 연구 공동체의 발전 기여
한계점:
본 논문에서는 초기 결과만 제시하며, 장기적인 안정성 및 확장성에 대한 추가적인 연구가 필요함.
다양한 환경을 지원하지만, 모든 실세계 환경에 대한 일반화 성능은 추가적인 검증이 필요함.
ScalingInter-RL의 최적 파라미터 설정 및 일반화 가능성에 대한 추가적인 연구가 필요함.
👍