この論文は、大規模言語モデル(LLM)の潜在的な推論能力、特に2段階のクエリ応答を介して2つの事実を組み合わせる能力を調査します。従来の研究では、LLMが事故プロセス(CoT)なしでは、2段階のクエリ応答に困難を経験していることがわかりました。この研究では、合成された事実を使用してLLMを微調整し、暗記や推論の近道を排除し、純粋な推論能力を評価します。 Llama 3 8BやGPT-4oなどのモデルを対象に実験した結果、モデルは2つの合成事実の組み合わせに失敗しましたが、1つの合成事実と1つの自然言語事実の組み合わせには成功する姿を見せました。これは、LLMが潜在的な2段階推論能力を持っていることを示していますが、この能力がモデルサイズに応じてどのように拡張されるかは不明であることを示唆しています。最後に、LLMの推論研究者がLLMの潜在的な推論能力について結論を下すとき、暗記や推論の近道による偽の成功と人為的な実験設定による偽の失敗の両方を避けるべきであることを強調します。