대규모 언어 모델(LLM)은 종종 환각 현상을 겪고 프롬프트 변화에 민감하여 일관성이 없거나 신뢰할 수 없는 텍스트를 생성하는 경향이 있다. 이러한 환각과 취약성을 완화하기 위해 LLM 응답의 일관성을 측정하는 방법이 제안되었는데, 이는 응답에 대한 모델의 확신 또는 재표본 추출 시 유사한 응답을 생성할 가능성을 의미한다. 기존 연구에서는 LLM 응답 일관성을 측정하기 위해 재표본 추출된 응답 풀 내에서 응답의 확률을 계산하거나, 내부 상태를 분석하거나, 응답의 로짓을 평가하는 방법이 사용되었다. 그러나 이러한 접근 방식이 LLM 응답의 일관성에 대한 사용자 인식과 얼마나 잘 일치하는지는 불분명했다. 이를 확인하기 위해, 본 연구에서는 사용자 연구($n=2,976$)를 수행하여 LLM 응답 일관성을 측정하는 현재 방법들이 일반적으로 인간의 LLM 일관성 인식과 잘 일치하지 않음을 보였다. 본 연구에서는 LLM 일관성을 추정하기 위한 로짓 기반 앙상블 방법을 제안하고, 이 방법이 LLM 일관성에 대한 인간 평가를 추정하는 데 있어 기존 최고의 성능을 가진 지표와 동일한 성능을 보임을 보여준다. 본 연구 결과는 인간 평가 없이 LLM 일관성을 추정하는 방법이 불완전하여, 자동화된 일관성 지표의 불완전성으로 인해 모델의 적절성을 오판하는 것을 방지하기 위해 인간 입력을 사용한 평가를 더 널리 사용할 필요가 있음을 시사한다.