강화 학습 기반 검증 가능한 보상 (RLVR)을 사용하여 대규모 언어 모델의 추론 능력을 향상시키는 방법이 제시되었지만, 롤아웃 생성은 병렬 처리가 가능하고 메모리 사용량이 적은 반면 정책 업데이트는 통신량이 많고 메모리 사용량이 많다는 근본적인 비대칭성이 존재합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 정보가 풍부한 하위 집합만을 사용하여 학습 신호를 유지하면서 업데이트 비용을 크게 줄이는 PODS(Policy Optimization with Down-Sampling)를 제안합니다. PODS는 최대 분산 다운샘플링을 통해 보상 다양성을 극대화하고 O(n log n) 솔루션을 제공합니다. 실험 결과, PODS와 GRPO(Group Relative Policy Optimization)를 결합하면 다양한 추론 벤치마크와 하드웨어 환경에서 표준 GRPO보다 우수한 성능을 달성합니다.