강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 중요한 역할을 한다. 하지만 Group Relative Policy Optimization (GRPO)와 같은 온-정책 알고리즘은 초기 훈련 과정에서 불안정하고 비효율적인 탐색으로 이어진다. 본 논문은 각 단계를 세 단계로 분해하는 Slow-Fast Policy Optimization (SFPO)를 제안한다. 첫째, 동일한 배치에서 짧고 빠른 내부 단계의 궤적을 사용한다. 둘째, 오프-정책 드리프트를 제어하는 재배치 메커니즘을 사용한다. 셋째, 최종적인 느린 보정을 수행한다. 이 재배치-업데이트 전 설계는 목적 함수와 롤아웃 과정을 변경하지 않아 기존 정책 기울기 파이프라인과 플러그 호환된다. SFPO는 안정성을 개선하고, 롤아웃을 줄이며, 추론 RL 훈련의 수렴을 가속화한다. 특히, 수학적 추론 벤치마크에서 GRPO보다 최대 2.80점 더 높은 평균 점수를 얻었으며, GRPO의 최고 정확도에 도달하는 데 최대 4.93배 적은 롤아웃과 최대 4.19배 빠른 실행 시간을 달성했다.