본 논문은 대규모 추론 모델(LRMs)을 위한 강화 학습 방법인 Group Relative Policy Optimization (GRPO)의 한계를 분석하고, 이를 극복하기 위한 Discriminative Constrained Optimization (DisCO) 프레임워크를 제안합니다. 특히, GRPO가 질문 수준 난이도 편향을 가지고 있으며, DisCO는 차별적 학습 원리에 기반하여 이 문제를 해결합니다. DisCO는 그룹 상대 목표 대신 차별적 목표를 사용하고, 클리핑 기반 대리 목표 대신 비클리핑 RL 대리 목표를 사용하며, KL 발산 제약을 적용하기 위해 제약 최적화 방식을 활용합니다. 실험 결과, DisCO는 GRPO 및 DAPO와 같은 기존 방법보다 성능이 향상되었습니다.