본 논문은 추론 단계에서 토큰별 계산 비용의 차이를 해결하여 대규모 언어 모델의 성능을 향상시키는 것을 목표로 합니다. HARP라는 간단한 수정 방법을 제시하는데, 이는 기존 Transformer 순전파 과정에 적용됩니다. 의사결정 과정에서의 주저함과 프레이밍 효과를 활용하여, 모델이 토큰 생성 중 불확실성을 만날 때 선택적으로 추가 계산을 적용합니다. 어려운 결정 지점에서 멈추고 입력을 재구성하여 다른 관점에서 접근하는 인간의 인지 과정을 모방합니다. 모델과 무관하며, 추가 훈련이 필요 없고, 구현이 용이하다는 장점이 있습니다. 다양한 하위 작업과 모델 크기에 걸쳐 평가한 결과 최대 +5.16%의 성능 향상을 보였으며, 빔 서치보다 두 배 빠른 추론 시간을 유지했습니다. 간단하면서도 상당한 성능 향상을 제공하는 HARP는 Transformer 기반 언어 모델 성능 향상을 위한 적응형 계산의 잠재력을 보여줍니다.