본 논문은 대규모 언어 모델(LLM)의 응답 정확도를 정확하게 추정하는 방법을 연구한다. LLM이 높은 확신으로 사실적으로 틀린 응답을 생성하는 문제를 해결하기 위해, 숨겨진 상태를 활용하여 훈련된 탐침(probe) 기반의 불확실성 정량화 방법에 주목한다. 기존 탐침 방법의 한계점인 데이터셋 간 일반화 성능 저하를 해결하고자, 데이터에 무관한 특징(data-agnostic features)과 숨겨진 상태 특징을 결합하는 하이브리드 접근법을 제안한다. 또한, 가장 정보가 풍부한 숨겨진 상태 특징만 선택하여 데이터에 무관한 특징의 효과를 높이는 방법을 탐색한다. 실험 결과, 데이터에 무관한 특징의 추가가 대부분의 경우 일반화 성능을 향상시키지만, 일부 경우에는 성능을 저하시키는 것을 확인했다. 가장 중요한 숨겨진 상태 특징만 사용하는 경우에도 유사한 결과가 나타났으며, 탐침이 데이터에 무관한 특징을 숨겨진 상태 특징보다 과소평가하는 현상이 이러한 불확실한 결과의 주요 원인으로 분석되었다.