본 논문은 최첨단 대규모 언어 모델(LLM)의 추론 능력을 체인 오브 솔루션 프롬프팅이나 트리 기반 추론과 같은 테스트 시간 계산(TTC) 기법을 통해 평가한다. 기존의 추론 LLM(RLLM)들이 해결책 공간을 체계적으로 탐색하는 능력이 부족함을 주장하며, 체계적인 문제 해결의 정의를 공식화하고 RLLM의 일반적인 실패 모드(체계적인 탐색가라기보다는 방황하는 존재임을 드러내는)를 확인한다. 여러 최첨단 LLM에 대한 정성적 및 정량적 분석을 통해, 잘못된 추론 단계, 중복 탐색, 환각 또는 불충실한 결론 등의 지속적인 문제점을 밝혀낸다. 연구 결과는 현재 모델의 성능이 단순한 작업에서는 능숙해 보이지만 복잡성이 증가함에 따라 급격히 저하될 수 있음을 시사한다. 따라서 최종 출력뿐 아니라 추론 과정의 구조 자체를 평가하는 새로운 지표와 도구의 필요성을 제시한다.