本稿では、ツール統合推論(TIR)が大規模言語モデル(LLM)のパフォーマンスを向上させる理由を研究します。 Pythonコードインタプリタなどのツールと統合されたLLMは大きな可能性を示していますが、このパラダイムが効果的な理由を説明する原則的な理論は欠けていました。本研究は、TIRがLLMの機能を根本的に拡張することを最初に正式に証明した。ツールは、モデルの経験的で実行可能なサポートを厳密に拡張し、そうでなければ不可能または扱いにくいほど冗長なトラブルシューティング戦略を可能にすることで、純粋なテキストモデルのパフォーマンス制限を克服します。モデルの学習安定性とパフォーマンスを損なうことなくモデルの行動を導くために、この論文は利点関数を直接修正して政策行動を導く新しいアルゴリズムであるAdvantage Shaping Policy Optimization(ASPO)を提示します。 Pythonインタプリタを外部ツールとして活用して、困難な数学的なベンチマークの包括的な実験を行いました。実験の結果、TIRモデルは純粋なテキストモデルよりもpass@k指標で確実に優れた性能を示しました。重要なことは、これらの利点は計算集約的な問題に限定されず、かなりの抽象洞察を必要とする問題にも拡張されることです。また、モデルがツールを使用してどのように考えるかを示す新しい認知パターンを確認しました。最後に、ASPOを使用して、初期のコード呼び出しとはるかにインタラクティブなターンを介して改善されたツール使用行動を報告します。全体的に、この研究は、TIRの成功の最初の原則的な説明を提供し、ツールが機能するという単純な事実で、なぜそしてなぜより強力な推論を可能にするかについての焦点をシフトします。