Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent

Created by
  • Haebom
Category
Empty

저자

Shiyi Cao, Dacheng Li, Fangzhou Zhao, Shuo Yuan, Sumanth R. Hegde, Connor Chen, Charlie Ruan, Tyler Griggs, Shu Liu, Eric Tang, Richard Liaw, Philipp Moritz, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

개요

SkyRL-Agent는 효율적인, 다중 턴, 장기적 에이전트 훈련 및 평가를 위한 프레임워크입니다. 비동기식 디스패칭, 경량 툴 통합, 유연한 백엔드 상호 운용성을 제공하여 SkyRL-train, VeRL, Tinker와 같은 기존 RL 프레임워크와 원활하게 사용할 수 있습니다. SkyRL-Agent를 사용하여 Qwen3-32B(24.4% Pass@1)로부터 순수하게 강화 학습으로 훈련된 소프트웨어 엔지니어링 에이전트 SA-SWE-32B를 훈련했습니다. 두 가지 주요 구성 요소를 도입했습니다: 비동기식 배치보다 1.55배 속도 향상을 달성하는 최적화된 비동기식 파이프라인 디스패처와, 코드 탐색을 용이하게 하고, 롤아웃 Pass@K를 높이며, 훈련 효율성을 향상시키는 AST 기반 검색 도구를 활용하는 툴 강화 훈련 레시피입니다. 이러한 최적화는 SA-SWE-32B가 SWE-Bench Verified에서 39.4% Pass@1을 달성하게 했으며, 비슷한 성능을 보이는 이전 모델에 비해 2배 이상 비용 절감 효과를 보였습니다. SA-SWE 작업만으로 훈련되었음에도 불구하고, SA-SWE-32B는 Terminal-Bench, BrowseComp-Plus 및 WebArena를 포함한 다른 에이전트 작업에도 효과적으로 일반화됩니다. 또한, 딥 리서치, 컴퓨터 사용, 메모리 에이전트에 대한 사례 연구를 통해 SkyRL-Agent의 확장성을 입증했으며, 각 사례는 다른 훈련 백엔드를 사용했습니다.

시사점, 한계점

시사점:
효율적인 비동기식 디스패칭으로 훈련 속도 향상.
AST 기반 검색 도구를 활용하여 훈련 효율성 및 성능 개선.
SWE-Bench에서 높은 Pass@1 달성 및 비용 절감 효과.
다양한 에이전트 작업으로의 일반화 능력.
다양한 훈련 백엔드와의 호환성을 통한 확장성 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만 논문 요약에서 언급된 내용으로 미루어 짐작컨대, 훈련 데이터의 양과 질, 특정 툴에 대한 의존성, 모델의 복잡성 등이 한계점으로 작용할 수 있을 것으로 예상됨)
👍