본 연구는 GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, Qwen 등 여러 대규모 언어 모델(LLM)을 대상으로, 300개의 소화기내과 보드 시험 스타일 질문을 사용하여 자가 보고된 응답 확실성을 평가했습니다. GPT-o1 preview, GPT-4o, Claude-3.5-Sonnet 등 최고 성능 모델은 0.15-0.2의 Brier score와 0.6의 AUROC를 달성했습니다. 최신 모델이 성능 향상을 보였지만, 모든 모델에서 과신의 경향이 일관되게 나타났습니다. 의료 분야에서 LLM의 안전한 사용을 위해서는 불확실성 추정이 중요한 과제임을 시사합니다.