본 연구는 대규모 언어 모델(LLM)의 신뢰성을 평가하기 위해 자기 평가 방식을 활용했습니다. 10개의 LLM에 대해 일반적 자기 효능감 척도(GSES)를 적용하여, 모델들이 과제 수행 능력에 대해 어떻게 평가하는지 조사했습니다. 4가지 조건(과제 없음, 계산 추론, 사회적 추론, 요약)에서 GSES 응답의 안정성을 확인하고, 인간의 자기 효능감과 비교했습니다. 또한, 자기 평가와 실제 과제 수행 능력 간의 관계를 분석하고, 추가적인 신뢰도 질문을 통해 모델의 과대평가 경향을 파악했습니다. 마지막으로, 질적 분석을 통해 자기 효능감 점수와 LLM의 의사소통 스타일 간의 연관성을 탐구했습니다.