본 논문은 코드 추론 작업에서 대규모 언어 모델(LLM)의 신뢰성 및 제어 가능성에 대한 관심을 바탕으로 LLM의 신뢰도 분석 및 향상 프레임워크를 제안합니다. 다양한 작업에서 주류 LLM의 신뢰도 신뢰성에 대한 포괄적인 실증 연구를 수행하고, 프롬프트 전략 최적화 및 수학적 보정(예: Platt Scaling)과 같은 기술의 효과를 평가합니다. DeepSeek-Reasoner가 다양한 작업에서 최고의 성능을 보였으며, 하이브리드 전략(재평가 프롬프트 전략과 Platt Scaling 결합)이 신뢰도 신뢰성 향상에 가장 효과적임을 보여줍니다. 또한, 다양한 작업 복잡성, 모델 규모 및 전략이 신뢰도 성능에 미치는 영향을 분석하고, 복잡한 추론 작업에서 현재 LLM의 신뢰도 개선의 여지가 있음을 강조합니다.