본 논문은 대규모 언어 모델(LLM)의 정책 경사도 최적화를 단일 스트림 관점에서 재검토합니다. GRPO와 같은 기존의 그룹 기반 방법들은 실시간 기준선을 사용하여 분산을 줄이지만, 빈번한 퇴화 그룹으로 인한 학습 신호 소실과 동기화 장벽으로 인한 확장성 저하라는 심각한 결점을 가지고 있습니다. 본 논문에서는 이러한 문제점을 설계 단계에서 제거하는 단일 스트림 정책 최적화(SPO)를 제안합니다. SPO는 그룹별 기준선을 지속적인 KL-적응형 값 추적기로 대체하고 배치 전체에서 이점을 전역적으로 정규화하여 모든 샘플에 대해 안정적이고 분산이 낮은 학습 신호를 제공합니다. 그룹이 없으므로 SPO는 더 높은 처리량을 가능하게 하고 생성 시간이 다양한 장기간 또는 도구 통합 설정에서 효과적으로 확장됩니다. 또한, 지속적인 값 추적기는 우선 순위 샘플링을 통한 적응형 커리큘럼을 자연스럽게 가능하게 합니다. Qwen3-8B를 사용한 실험 결과, SPO는 GRPO보다 더 부드럽게 수렴하고 더 높은 정확도를 달성하는 동시에 퇴화 그룹에 낭비되는 계산을 제거합니다. 추가 연구를 통해 SPO의 성능 향상이 기준선 추정 및 이점 정규화에 대한 원칙적인 접근 방식에서 비롯됨을 확인했으며, 이는 LLM 추론을 위한 더욱 강력하고 효율적인 경로를 제공합니다. 5가지 어려운 수학 벤치마크에서 Qwen3 8B를 사용하여 SPO는 GRPO보다 평균 maj@32를 +3.4% 향상시켰으며, BRUMO 25(+7.3%p), AIME 25(+4.4%p), HMMT 25(+3.3%p) 등 어려운 데이터 세트에서 상당한 절대 점수 향상을 보였고, 평가된 모든 k 값에 대해 pass@$k$에서 일관된 상대적 이득을 달성했습니다. SPO의 성공은 RL 알고리즘에 우연적인 복잡성을 추가하는 기존 추세에 도전하며, 건축상의 해결책이 아니라 기본 원칙이 LLM 추론의 다음 발전을 주도하는 경로를 강조합니다.