本論文は、Chain-of-Thought(CoT)プロンプトによるLarge Language Model(LLM)の性能向上が行われる現象について、データ分布の観点から分析します。 CoT推論は、訓練データで学習された構造的帰納的偏向を反映して、訓練中に観察された推論経路を近似する条件付き生成を可能にするかどうかを調べます。この目的のために、LLMを最初から訓練し、さまざまな分布条件で体系的に調査する制御された環境であるDataAlchemyを設計し、課題、長さ、形式の3つの次元でCoT推論を分析します。研究の結果、CoT推論は、訓練分布から離れると消滅する脆弱な現象であることを明らかにし、真に一般化可能な推論を達成することの難しさを強調しています。