본 논문은 강화 학습(RL)을 통해 언어 모델(LM)이 자연어 추론 과정을 생성하도록 훈련할 때 다양한 어려운 질문 응답 과정에서 성능이 향상됨을 보여줍니다. 기존 RL 방식은 LM 출력의 정확성만을 평가하는 이진 보상 함수를 사용하여 보정력 저하 및 오류 응답 생성 증가라는 부작용을 초래합니다. 본 논문에서는 RLCR(Reinforcement Learning with Calibration Rewards)을 제안합니다. RLCR은 정확도와 보정된 신뢰도 추정을 동시에 향상시키는 방법으로, LM이 추론 후 예측과 수치적 신뢰도 추정치를 모두 생성하고, 이진 정확도 점수에 브라이어 점수(Brier score)를 추가한 보상 함수를 최적화합니다. 본 논문은 이 보상 함수가 정확하고 잘 보정된 예측을 생성하는 모델을 산출함을 증명하고, 다양한 데이터셋에서 RLCR이 정확도 저하 없이 보정력을 크게 향상시키는 것을 실험적으로 보여줍니다. 또한, 테스트 시점에서 언어로 표현된 신뢰도를 활용하여 신뢰도 가중 스케일링 방법을 통해 정확도와 보정력을 향상시킬 수 있음을 보여줍니다.