본 논문은 장문의 Chain of Thought(CoT) 모델에서 계산 비용을 최소화하기 위해 기존 학습 데이터의 활용도를 극대화하는 방법을 제시합니다. 기존 방법들이 부정적인 응답을 무시하거나 모든 토큰에 동일한 페널티를 적용하는 한계를 지적하며, 부정적인 응답에도 자기 반성 및 오류 수정 단계와 같은 유용한 정보가 포함되어 있음을 분석합니다. 이를 해결하기 위해, 부정적 샘플 증강을 포함하는 행동 제약 정책 경사(BCPG-NSA)라는 새로운 오프라인 강화 학습 프레임워크를 제안합니다. BCPG-NSA는 샘플 분할, LLM 및 PRM 판정자를 결합한 합의 기반 단계 정확도 평가, 부정적 샘플 내 긍정적 단계를 효과적으로 추출하도록 설계된 NSA를 이용한 정책 최적화의 세 단계로 구성됩니다. 실험 결과, BCPG-NSA는 여러 어려운 수학/코딩 추론 벤치마크에서 기존 방법보다 성능이 우수하며, 샘플 효율성이 향상되고 반복 횟수가 증가해도 강건성과 확장성이 유지됨을 보여줍니다.