대규모 언어 모델(LLM)은 많은 벤치마크에서 인상적인 결과를 달성하지만, 계획 및 상태 기반 추론 능력은 불분명합니다. 본 연구는 코드 실행이나 다른 도구 없이 8-퍼즐을 사용하여 이러한 능력을 직접적으로 연구했습니다. 8-퍼즐은 상태 추적과 목표 지향적 계획이 필요한 고전적인 문제이며, 단계별 평가가 가능합니다. 네 가지 모델을 일반적인 프롬프트 조건(Zero-Shot, Chain-of-Thought, Algorithm-of-Thought)과 계층적 교정 피드백을 사용하여 테스트했습니다. 피드백은 일부 모델-프롬프트 조합의 성공률을 향상시켰지만, 많은 성공적인 실행은 길고, 계산 비용이 많이 들고, 간접적이었습니다. 또한, 외부 이동 검증기를 사용하여 유효한 이동만 제공하는 방식으로 모델을 검사했습니다. 이러한 수준의 지원에도 불구하고, 어떤 모델도 이 환경에서 퍼즐을 해결하지 못했습니다. 질적 분석 결과, 모든 모델에서 두 가지 주요 결함이 나타났습니다: (1) 빈번한 유효하지 않은 이동으로 이어지는 불안정한 내부 상태 표현과 (2) 루프에 들어가거나 목표 상태까지의 거리를 줄이지 않는 작업을 선택하는 약한 휴리스틱 계획.