대규모 언어 모델(LLM)의 추론 능력 및 문제 해결 정확도를 향상시키는 데 테스트 시점 계산 방법이 효과적이지만, 높은 계산 리소스가 필요하다는 단점이 있다. 본 논문은 모델의 높은 신뢰도를 보이는 낮은 다양성의 분기를 탐색하는 데 계산 자원이 낭비되는 문제를 지적하고, 불확실성이 높은 추론 단계에서 분기하고, 경량 검증기로 확장을 가지치기하는 "Entropy-Gated Branching (EGB)"를 제안한다. EGB는 수학 및 금융 추론 벤치마크에서 표준 추론보다 22.6%의 정확도 향상을 보였으며, 수학 벤치마크에서 테스트 시점 빔 서치보다 31% - 75% 더 빠르게 작동하면서 더 높은 성능을 보였다. 이는 추론 중 동적 자원 할당을 통해 효율성과 효과성을 모두 크게 향상시킬 수 있음을 보여준다.