본 논문은 대규모 언어 모델(LLM)의 과신/과소신 경향을 인간과 비교 분석하고, 과신 문제를 해결하기 위한 새로운 방법론인 Answer-Free Confidence Estimation (AFCE)을 제시합니다. Llama-3-70B-instruct, Claude-3-Sonnet, GPT-4o 세 가지 LLM을 다양한 난이도의 질의응답 과제에 적용하여 실험을 진행하였습니다. 그 결과, LLM은 인간과 달리 과제 난이도에 대한 민감도가 낮고, 페르소나(전문가/일반인, 인종, 성별, 연령 등)에 따라 편향된 자신감 추정을 보이는 것을 확인했습니다. AFCE는 질문에 대한 자신감 점수를 먼저 얻고, 그 후 답변을 따로 요청하는 두 단계의 프롬프트 방식을 사용하여 과신을 줄이고 인간과 유사한 난이도 민감도를 제공합니다. MMLU와 GPQA 데이터셋을 사용한 실험 결과, AFCE가 과신을 크게 감소시키고 더 인간적인 난이도 민감도를 제공함을 보여줍니다.