Sign In

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Created by
  • Haebom
Category
Empty

저자

Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia

개요

본 논문은 코드 추론 작업에서 대규모 언어 모델(LLM)의 신뢰성 및 제어 가능성에 대한 관심을 바탕으로 LLM의 신뢰도 분석 및 향상 프레임워크를 제안합니다. 다양한 작업에서 주류 LLM의 신뢰도 신뢰성에 대한 포괄적인 실증 연구를 수행하고, 프롬프트 전략 최적화 및 수학적 보정(예: Platt Scaling)과 같은 기술의 효과를 평가합니다. DeepSeek-Reasoner가 다양한 작업에서 최고의 성능을 보였으며, 하이브리드 전략(재평가 프롬프트 전략과 Platt Scaling 결합)이 신뢰도 신뢰성 향상에 가장 효과적임을 보여줍니다. 또한, 다양한 작업 복잡성, 모델 규모 및 전략이 신뢰도 성능에 미치는 영향을 분석하고, 복잡한 추론 작업에서 현재 LLM의 신뢰도 개선의 여지가 있음을 강조합니다.

시사점, 한계점

DeepSeek-Reasoner가 다른 모델보다 우수한 신뢰도 성능을 보임.
재평가 프롬프트 전략과 Platt Scaling을 결합한 하이브리드 전략이 가장 효과적인 신뢰도 향상 전략임.
다양한 작업의 복잡성, 모델 규모, 전략 등이 신뢰도 성능에 영향을 미침.
복잡한 추론 작업에서 LLM의 신뢰도 개선의 여지가 존재함.
본 연구는 LLM 기반 소프트웨어 공학에서의 신뢰도 적용을 위한 연구 기반 및 기술적 참고 자료를 제공함.
👍