본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력과 복잡한 비단조 추론에서의 확장성을 조사합니다. 제브라로직(ZebraLogic)이라는 포괄적인 평가 프레임워크를 도입하여 제약 만족 문제(CSP)에서 파생된 논리 격자 퍼즐에 대한 LLM 추론 성능을 평가합니다. 제브라로직은 제어 가능하고 정량화 가능한 복잡성을 가진 퍼즐을 생성하여 Llama, o1 모델, DeepSeek-R1과 같은 모델의 확장성 한계에 대한 체계적인 연구를 가능하게 합니다. 다양한 검색 공간 복잡성과 다양한 논리적 제약 조건을 포함하여 증가하는 난이도에서 추론을 평가할 수 있는 구조화된 환경을 제공합니다. 실험 결과, 문제 복잡성이 증가함에 따라 정확도가 크게 감소하는 현상(복잡성의 저주)을 발견하였습니다. 이러한 한계는 더 큰 모델과 증가된 추론 시간 계산에도 지속되어 현재 LLM 추론 능력의 고유한 제약을 시사합니다. 또한 Best-of-N 샘플링, 백트래킹 메커니즘, 자체 검증 프롬프트를 포함한 논리적 추론을 향상시키는 전략을 탐구합니다.