본 논문은 대규모 언어 모델(LLM)의 환각 및 프롬프트 변화에 대한 민감성으로 인해 발생하는 일관성 없는 또는 신뢰할 수 없는 텍스트 생성 문제를 다룬다. 기존의 LLM 응답 일관성 측정 방법들은 재표본 응답 풀 내에서 응답의 확률 또는 내부 상태나 로짓에 의존하지만, 인간의 인식과의 부합성이 부족했다. 본 연구는 2,976명의 참가자를 대상으로 한 사용자 연구를 통해 기존 방법의 한계를 밝히고, 로짓 기반 앙상블 방법을 제안하여 인간의 LLM 일관성 평가와의 부합성을 향상시켰다. 결과적으로 인간 평가 없이 LLM 일관성을 추정하는 방법의 불완전성을 지적하며, 인간 입력을 포함한 평가의 광범위한 활용을 제안한다.