본 논문은 대규모 언어 모델(LLM)의 체계적인 추론 능력 부족 문제를 다룹니다. LLM은 수학 및 프로그래밍 문제 해결에서 강화 학습 및 사고 과정 프롬프트 기반 후속 학습 전략을 통해 성능 향상을 보였으나, 일반화 능력에 대한 이해는 여전히 부족합니다. 따라서 본 논문은 질적 공간 및 시간적 추론과 같이 관계적 구성에 대한 체계적 추론을 요구하는 과제에 초점을 맞춰, 문제 난이도를 제어하고 모델의 일반화 능력을 정확하게 측정합니다. 연구 결과, 고려된 LLM과 강화 학습 기반의 대규모 추론 모델(LRM) 모두 전반적으로 성능이 저조하지만, 무작위 추측보다는 나은 결과를 보였습니다.