대규모 언어 모델(LLM)의 추론 능력이 발전하고 있지만, 현재의 추론 시간 확장 방식은 과도한 계산 비용을 초래합니다. 본 논문은 디코딩 궤적 분석을 통해 대부분의 다음 토큰 예측이 정답과 일치하지만, 소수의 중요한 토큰에서 편차가 발생한다는 것을 발견했습니다. 이를 바탕으로, 힌터(Hinter, 강력한 LLM)가 중요한 결정 지점에서 확률적 지침을 제공하고, 실무자(Practitioner, 효율적인 소규모 모델)가 주요 추론 단계를 실행하는 Hint-Practice Reasoning (HPR) 프레임워크를 제안합니다. HPR의 핵심 혁신은 Distributional Inconsistency Reduction (DIR)로, 실무자의 추론 궤적과 힌터의 예상 분포 간의 차이를 정량화하여 개입 지점을 동적으로 식별합니다. DIR에 의해 안내되는 반복적인 트리 업데이트를 통해 HPR은 유망한 추론 경로를 재가중하고 낮은 확률의 분기를 우선순위에서 제외합니다. 산술 및 상식 추론 벤치마크에서 HPR은 self-consistency 및 MCTS baseline과 유사한 성능을 1/5 토큰만 디코딩하여 달성했으며, 기존 방법보다 최대 5.1% 절대 정확도로 앞서면서 유사하거나 낮은 FLOPs를 유지하는 등 최고 수준의 효율성-정확도 trade-off를 보여줍니다.