SkyRL-Agent는 효율적인, 다중 턴, 장기적 에이전트 훈련 및 평가를 위한 프레임워크입니다. 비동기식 디스패칭, 경량 툴 통합, 유연한 백엔드 상호 운용성을 제공하여 SkyRL-train, VeRL, Tinker와 같은 기존 RL 프레임워크와 원활하게 사용할 수 있습니다. SkyRL-Agent를 사용하여 Qwen3-32B(24.4% Pass@1)로부터 순수하게 강화 학습으로 훈련된 소프트웨어 엔지니어링 에이전트 SA-SWE-32B를 훈련했습니다. 두 가지 주요 구성 요소를 도입했습니다: 비동기식 배치보다 1.55배 속도 향상을 달성하는 최적화된 비동기식 파이프라인 디스패처와, 코드 탐색을 용이하게 하고, 롤아웃 Pass@K를 높이며, 훈련 효율성을 향상시키는 AST 기반 검색 도구를 활용하는 툴 강화 훈련 레시피입니다. 이러한 최적화는 SA-SWE-32B가 SWE-Bench Verified에서 39.4% Pass@1을 달성하게 했으며, 비슷한 성능을 보이는 이전 모델에 비해 2배 이상 비용 절감 효과를 보였습니다. SA-SWE 작업만으로 훈련되었음에도 불구하고, SA-SWE-32B는 Terminal-Bench, BrowseComp-Plus 및 WebArena를 포함한 다른 에이전트 작업에도 효과적으로 일반화됩니다. 또한, 딥 리서치, 컴퓨터 사용, 메모리 에이전트에 대한 사례 연구를 통해 SkyRL-Agent의 확장성을 입증했으며, 각 사례는 다른 훈련 백엔드를 사용했습니다.