본 논문은 강화 학습(RL)을 이용한 대규모 언어 모델(LLM)의 코드 생성에서 중간 추론 과정의 질을 고려하는 새로운 프레임워크를 제시한다. 기존의 결과 기반 보상 방식의 한계를 극복하기 위해, 추론 과정의 질을 평가하는 벤치마크 LCB-RB와 추론 품질을 정확하게 평가하는 OD-based 방법을 제안한다. OD-based 방법은 추론 경로를 체계적으로 최적화 및 저하시켜 고품질 선호도 쌍을 생성한다. 또한, 성공적인 결과의 추론 과정에만 보상을 적용하는 새로운 RL 방법인 Posterior-GRPO(P-GRPO)를 제안하여 보상 해킹 문제를 완화한다. 7B 파라미터 모델을 사용한 실험 결과, P-GRPO는 다양한 코드 생성 작업에서 기존 방법보다 4.5% 향상된 성능을 보이며, GPT-4-Turbo와 비슷한 성능을 달성했다. 수학적 문제에도 적용 가능성을 보였다. 모델, 데이터셋, 코드는 공개적으로 이용 가능하다.