본 논문은 대규모 언어 모델(LLM)의 어려운 추론 문제 해결 능력을 향상시키기 위해 문맥 내 검색과 테스트 시간 스케일링을 결합하는 방법을 제시합니다. 기존 연구들이 단순한 문맥 내 학습 예시를 사용한 직접적인 프롬프팅에 의존하여 LLMs의 한계를 과소평가하는 경향이 있다는 점을 지적하며, NP-hard 문제 및 복잡한 실제 계획 벤치마크에서 문맥 내 검색 프롬프팅과 내부 스케일링을 결합하여 최대 30배의 성능 향상을 달성했습니다. 이러한 성과는 문맥 내 검색과 내부 스케일링의 결합이 LLMs의 추론 능력을 크게 확장하여 이전에는 "해결 불가능"하다고 여겨졌던 문제들을 해결할 수 있음을 보여줍니다. 따라서 LLMs의 추론 능력 평가 방식을 재고하고, 실제 환경에서의 운영 추론 경계를 더 잘 이해하기 위한 더욱 강력한 평가 전략이 필요함을 강조합니다.