강화 학습(RL)은 대규모 사전 학습된 언어 모델(LLM)을 발전시키는 데 중요한 역할을 해왔으며, GPT-o 시리즈, DeepSeek-R1, Kimi-K1.5, Grok 4, GLM-4.5와 같은 모델들이 RL 훈련을 통해 추론 및 코딩 능력을 향상시켰습니다. RL 훈련은 여전히 계산 비용이 많이 들며, 롤아웃 생성이 전체 런타임의 90% 이상을 차지합니다. 롤아웃 응답 길이의 긴 꼬리 분포로 인해 효율성이 제한되며, 몇몇 긴 응답이 전체 배치를 지연시켜 GPU 유휴 시간을 발생시킵니다. 이러한 문제를 해결하기 위해, 저자들은 긴 꼬리 비효율성을 완화하는 Active Partial Rollouts in Reinforcement Learning (APRIL)을 제안합니다. APRIL은 롤아웃 단계에서 롤아웃 요청을 과도하게 제공하고, 대상 응답 수에 도달하면 종료하며, 불완전한 응답을 재활용하여 향후 단계에서 계속 사용할 수 있도록 합니다. 실험 결과, APRIL은 일반적으로 사용되는 RL 알고리즘(GRPO, DAPO, GSPO)에서 롤아웃 처리량을 평균 22.5% (최대 44%) 향상시키고, 수렴을 가속화하며, 작업 전반에서 평균 2.1% (최대 8%) 높은 최종 정확도를 달성했습니다. APRIL은 프레임워크와 하드웨어에 구애받지 않으며, 이미 slime RL 프레임워크에 통합되어 있으며, NVIDIA 및 AMD GPU에서 모두 배포 가능합니다.