본 논문은 대규모 추론 모델(LRMs)의 성능, 확장성, 한계를 체계적으로 조사한 연구입니다. 기존 연구들이 주로 최종 답변의 정확도에 초점을 맞춘 것과 달리, 본 연구는 복잡도를 정밀하게 조절할 수 있는 제어 가능한 퍼즐 환경을 사용하여 최종 답변뿐 아니라 내부 추론 과정도 분석했습니다. 실험 결과, LRMs는 특정 복잡도를 넘어서면 정확도가 완전히 붕괴되며, 추론 노력은 문제 복잡도가 증가함에 따라 어느 정도까지 증가하다가 남은 토큰 예산에도 불구하고 감소하는 역설적인 확장 한계를 보이는 것을 확인했습니다. 또한, 표준 LLM과 비교 분석하여 저, 중, 고 복잡도 작업에 따른 세 가지 성능 영역을 제시하고, LRMs의 명확한 계산, 일관성 있는 추론의 한계를 밝혔습니다. 추론 과정 분석을 통해 해결책 탐색 패턴 및 모델의 계산 행동을 연구하여 LRMs의 강점과 한계, 추론 능력에 대한 의문점을 제기했습니다.