본 논문은 대규모 언어 모델(LLM)이 인간이 이해할 수 있는 개념을 어떻게 인코딩하는지 밝히는 데 유망한 기법인 프로빙 기법에 초점을 맞추고 있습니다. 특히, 엄선된 데이터셋에 프로빙 기법을 적용할 때 그 효과가 더욱 두드러집니다. 하지만 효과적인 프로브 훈련에 적합한 데이터셋의 특징은 아직 잘 알려져 있지 않습니다. 본 연구는 프로브 성능이 LLM이 생성한 응답과 내부 특징 공간의 특성을 반영한다는 가설을 세웁니다. 다양한 작업에 걸쳐 프로브 성능과 LLM 응답의 불확실성을 정량적으로 분석하여, 프로브 성능 향상은 응답 불확실성 감소와 일관되게 상호 연관됨을 밝힙니다. 더 나아가 특징 중요도 분석을 통해 이러한 상관관계를 자세히 조사합니다. 연구 결과, 높은 LLM 응답 분산은 더 많은 중요한 특징과 관련이 있으며, 이는 프로브 모델에 더 큰 어려움을 초래하고 성능 저하로 이어짐을 보여줍니다. 또한, 응답 불확실성 분석의 통찰력을 활용하여 다양한 영역에서 LLM 표현이 인간의 지식과 일치하는 구체적인 예를 확인하여 LLM의 해석 가능한 추론에 대한 추가적인 증거를 제시합니다.