대규모 언어 모델(LLMs)은 다양한 영역에서 놀라운 발전을 보였지만, 제한된 예시로부터 잠재적인 규칙을 유추하는 귀납적 추론 능력은 여전히 제한적이다. 대규모 추론 모델(LRMs)에서 사용되는 사고 과정(CoT) 프롬프팅이 이러한 추론을 향상시킨다고 종종 가정된다. 본 연구는 체스, 텍사스 홀덤, 주사위 게임, 블랙잭과 같이 숨겨진 인간이 정의한 규칙을 가진 4가지 통제된 진단 게임 기반 작업을 만들어 이 가정을 조사한다. 그 결과, CoT 추론은 귀납적 성능을 저하시킬 수 있으며, LRM이 비추론적 대응 모델보다 성능이 떨어지는 경우가 많다는 것을 발견했다. 이를 설명하기 위해 추론 단계가 세 가지 실패 모드(잘못된 하위 작업 분해, 잘못된 하위 작업 해결, 잘못된 최종 답변 요약)를 통해 오류를 증폭시키는 방법을 보여주는 이론적 프레임워크를 제시한다. 이론적 및 실증적 분석을 바탕으로 식별된 실패 유형에 따라 CoT 생성을 적용하는 구조적 개입을 도입한다. 이러한 개입은 재훈련 없이 귀납적 정확도를 향상시킨다. 본 연구 결과는 효과적인 (CoT) 추론은 더 많은 단계를 수행하는 것뿐만 아니라 그 단계들이 잘 구성되는 것에도 달려 있음을 시사한다.