본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해, 특히 파라미터 제약 조건 하에서, "Think-at-Hard (TaH)"라는 동적 잠재적 사고 방식을 제안한다. TaH는 어려운 토큰에 대해서만 추가 반복을 수행하도록 설계되었으며, 이를 통해 '과도한 사고' 현상을 방지하고, 정확한 토큰 예측을 유지하면서 성능을 향상시킨다. TaH는 경량 신경 결정기를 사용하여 첫 번째 패스 후 잘못될 가능성이 있는 토큰에 대해서만 잠재적 반복을 트리거한다. LoRA 모듈을 활용하여 어려운 토큰에 대한 정제를 수행하고, 듀오-인과적 어텐션 메커니즘을 도입하여 정보 흐름을 개선한다.