GRPO 알고리즘의 도입 이후 강화 학습(RL)에 대한 관심이 증가했지만, 훈련 효율성은 여전히 중요한 과제로 남아있다. 본 연구에서는 추론과 훈련을 분리하여 주기적 비동기 프레임워크를 도입했다. 이는 각 구성 요소의 수요 기반, 독립적이며 탄력적인 확장을 가능하게 한다. 또한, on-policy 전략 하에서 기존 동기 방식과 정확도가 동일하며, 훈련 단계에서 통합된 삼중 모델 아키텍처를 적용하고 반복 계산을 줄이기 위해 공유 프롬프트 어텐션 마스크를 제안했다.