본 논문은 신뢰성과 정확성이 중요한 과학, 법률, 의료 분야에서 사용되는 대규모 언어 모델 (LLM)의 과신 문제를 해결하기 위해, ConfTuner라는 새로운 미세 조정 방법을 제안한다. ConfTuner는 정답 확률을 정확하게 예측하도록 모델을 유도하는 토큰화된 Brier score를 사용하여, 기존의 한정적인 프롬프트 엔지니어링 및 경험적 불확실성 추정 기반 미세 조정의 한계를 극복한다. 본 연구는 다양한 추론 과제에서 캘리브레이션을 향상시키고, GPT-4o와 같은 블랙박스 모델에도 적용 가능하다는 것을 보였다. 또한, 캘리브레이션 개선이 자체 수정 및 모델 캐스케이드의 성능 향상으로 이어져 신뢰할 수 있는 LLM 시스템 개발에 기여할 수 있음을 입증했다.