본 논문은 대규모 언어 모델(LLM)의 출력 없이 자체 평가를 수행하는 새로운 방법인 Chain-of-Embedding (CoE)을 제안합니다. CoE는 추론 과정에서 생성되는 모든 중간 은닉 상태(latent thinking path)를 활용하여 LLM의 응답 정확도를 추정합니다. 실험 결과, 정확한 응답과 잘못된 응답을 생성할 때 LLM의 CoE 특징이 다르게 나타나며, 이러한 차이를 이용하여 응답 정확도를 효과적으로 추정할 수 있음을 보여줍니다. 네 가지 다양한 영역과 일곱 가지 LLM에 대한 실험을 통해 방법의 효과를 입증했으며, 학습이 필요 없고 연산 비용이 매우 적어(밀리초 수준) 대규모 환경에서 실시간 피드백을 제공할 수 있습니다. LLM의 내부 은닉 상태 변화라는 관점에서 LLM 응답 정확도에 대한 새로운 통찰력을 제공합니다.