본 논문은 대규모 언어 모델(LLM)의 신뢰성과 품질 향상을 위해 테스트 시점 계산의 확장성을 다룬다. 특히, 하나의 입력에 대해 여러 개의 출력을 생성하고 분석하는 전략을 통해 불확실성 정량화 및 다단계 추론을 개선하는 연구이다. 기존 방법들은 외부 모델에 의존하여 계산 비용이 많고 문맥 인식이 부족한 한계가 있었는데, 본 논문은 생성형 LLM의 내부 은닉 상태를 활용하여 경량화된 문맥 인식 의미 클러스터링(LSC) 방법을 제안한다. 다양한 LLM과 데이터셋에 대한 실험 결과, LSC는 기존 방법의 성능을 유지하거나 능가하면서 계산 효율성을 크게 향상시킨다.