本論文は、大規模推論モデル(LRM)の性能、拡張性、限界を体系的に調査した研究です。既存の研究が主に最終的な回答の精度に焦点を当てたのとは異なり、この研究は複雑さを正確に調整できる制御可能なパズル環境を使用して、最終的な回答だけでなく内部推論プロセスも分析しました。実験の結果、LRMsは特定の複雑さを超えると精度が完全に崩壊し、推論努力は問題の複雑さが増加するにつれてある程度まで増加し、残りのトークン予算にもかかわらず減少する逆説的な拡張限界を示すことを確認しました。また、標準LLMと比較分析し、低、中、高複雑度の作業に応じた3つの性能領域を提示し、LRMsの明確な計算、一貫した推論の限界を明らかにしました。推論過程分析により,解決策探索パターンとモデルの計算行動を研究し,LRMの強みと限界,推論能力に関する疑問を提起した。