대규모 언어 모델(LLM)은 환각 현상과 프롬프트 변동에 취약하여 일관성이 없거나 신뢰할 수 없는 텍스트를 생성하는 경향이 있다. 본 연구에서는 LLM의 일관성을 측정하는 다양한 방법론이 인간의 인식과 얼마나 일치하는지 평가하기 위해 사용자 연구(n=2,976)를 수행했다. 기존의 LLM 일관성 측정 방법이 인간의 인식과 잘 일치하지 않음을 확인하고, 로짓 기반 앙상블 방법을 제안하여 인간 평가와의 일치도를 높였다. 연구 결과는 자동화된 일관성 측정 지표의 불완전성으로 인해, 인간 평가를 광범위하게 활용하여 모델의 적절성을 정확하게 판단해야 함을 시사한다.