본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 강화 학습 기반 미세 조정 방법인 Contrastive learning with annotated CoT-based Reinforced Fine-Tuning (\TheName{})을 제안합니다. 기존 RL 기반 방법의 한계점인 불안정한 추론 경로 샘플링과 주석이 달린 사고 과정(CoT)의 무시, 그리고 기존 SFT 접근 방식의 과도한 CoT 강조 문제를 해결하기 위해, 각 CoT에 대한 표현을 학습하고 새로운 대조 신호를 설계하여 미세 조정 과정을 안내합니다. \TheName{}는 주석이 달린 CoT를 완전히 활용하는 동시에 비지도 학습 신호를 통합하여 미세 조정 과정을 안정화시킵니다. 실험 결과, 세 가지 기준 방법, 두 가지 기본 모델, 두 가지 데이터 세트를 사용한 실험을 통해 \TheName{}의 강건성, 성능(최대 10.15% 향상), 효율성(최대 30.62% 향상) 측면에서 상당한 이점을 보여줍니다.