LLM의 환각 및 기타 문제 해결을 위한 핵심 연구 방향인 불확실성 정량화를 위해, 본 연구에서는 추론 추적 길이가 대규모 추론 모델에서 간단하고 유용한 신뢰도 추정치임을 제시한다. 여러 모델, 데이터 세트 및 프롬프트를 사용한 광범위한 실험을 통해, 추적 길이는 언어화된 신뢰도와 같은 다른 zero-shot 신뢰도 추정치와 유사하지만 상호 보완적인 방식으로 수행된다는 것을 보여준다. 추론 post-training은 추적 길이와 정확도 사이의 관계를 근본적으로 변화시키며, post-training이 일반적으로 추적이 길어지게 한다는 이전 연구를 넘어선다. 문제 난이도 및 GRPO 유도 길이 바이어스와 같은 교란 요인을 조정한 후에도 효과가 유지됨을 관찰하면서, 추적 길이의 신뢰도 신호로서의 성능 뒤에 있는 메커니즘을 조사한다. 높은 엔트로피 또는 "분기" 토큰이 핵심 역할을 한다는 것을 확인했다. 본 연구 결과는 추론 post-training이 언어적 표현을 넘어 불확실성 정량화를 향상시키고, 대규모 추론 모델에 대한 실용적인 신뢰도 척도로서 추적 길이를 확립한다.