대규모 언어 모델(LLM)의 성능 향상을 위한 강화 학습(RL) 사후 훈련 방식이 주목받고 있습니다. 기존의 대부분의 RL 시스템은 완전 동기 방식으로 작동하여 전체 배치의 롤아웃이 완료될 때까지 대기해야 합니다. 이는 매우 긴 궤적으로 인해 전체 롤아웃 프로세스가 중단되고 많은 GPU가 유휴 상태로 남아 비효율성을 초래합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 고정된 수의 동시 롤아웃을 유지하고, 충분한 샘플이 수집되면 조기 종료하며, 완료되지 않은 궤적을 후속 롤아웃에서 재사용하는 Concurrency-Controlled Partial Rollout with Importance Sampling (CoPRIS)를 제안합니다. 또한, off-policy 궤적의 영향을 완화하기 위해 Cross-stage Importance Sampling Correction을 도입하여 중요도 샘플링 보정을 위해 이전 정책에서 버퍼링된 로그 확률과 현재 정책에서 재계산된 로그 확률을 연결합니다. 실험 결과, CoPRIS는 어려운 수학적 추론 벤치마크에서 동기식 RL 시스템과 유사하거나 더 우수한 성능을 유지하면서 최대 1.94배 빠른 훈련 속도를 달성했습니다.