본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 테스트 시점 스케일링(TTS) 방법에서 외부 프로세스 보상 모델(PRM)이나 Best-of-N(BoN)과 같은 샘플링 방법에 대한 과도한 의존으로 인해 발생하는 상당한 계산 비용 문제를 해결하기 위해, 효율적인 자기 안내 TTS 프레임워크인 Guided by Gut (GG)를 제안합니다. GG는 토큰 수준의 신뢰도와 단계 참신성을 이용한 경량 트리 탐색을 통해 외부 검증 모델 없이 PRM 수준의 성능을 달성합니다. 특히, 표적 강화 학습 미세 조정 단계를 통해 내부 신뢰도 추정의 신뢰성을 향상시키는 혁신적인 방법을 제시합니다. 실험 결과, GG는 더 작은 모델(예: 15억 매개변수)에서 훨씬 더 큰 모델(예: 320억700억 매개변수)과 동등하거나 그 이상의 정확도를 달성하면서 GPU 메모리 사용량을 최대 10배까지 줄이는 것을 보여줍니다. PRM 기반 방법과 비교했을 때, GG는 비슷한 정확도를 8배 빠른 추론 속도와 45배 적은 메모리 사용량으로 달성합니다. 또한, BoN 전략과 비교하여 KV 캐시 메모리 사용량을 약 50% 줄여 TTS 기법의 효율적이고 실용적인 배포를 가능하게 합니다.