Cet article explore les raisons pour lesquelles l'inférence intégrée à l'outil (TIR) améliore les performances des modèles de langage à grande échelle (LLM). Si les LLM intégrés à des outils tels que les interpréteurs de code Python sont très prometteurs, une théorie raisonnée expliquant l'efficacité de ce paradigme fait défaut. Cette étude est la première à démontrer formellement que TIR étend fondamentalement les capacités des LLM. En étendant rigoureusement le support empirique et faisable du modèle, l'outil surmonte les limitations de performance des modèles purement textuels en permettant des stratégies de résolution de problèmes qui seraient autrement impossibles ou fastidieuses. Pour guider le comportement du modèle sans compromettre la stabilité et les performances de l'apprentissage, cet article présente Advantage Shaping Policy Optimization (ASPO), un nouvel algorithme qui modifie directement la fonction d'avantage pour guider les actions politiques. Nous menons des expériences approfondies sur des benchmarks mathématiques complexes en utilisant l'interpréteur Python comme outil externe. Nos expériences démontrent que le modèle TIR surpasse clairement le modèle purement textuel en termes de pass@k. Il est important de noter que cet avantage s'étend au-delà des problèmes à forte intensité de calcul pour inclure des problèmes nécessitant une compréhension abstraite significative. Nous identifions également de nouveaux schémas cognitifs qui illustrent comment le modèle utilise les outils pour penser. Enfin, nous signalons une amélioration du comportement d'utilisation des outils grâce à l'invocation initiale du code et à des interactions nettement plus interactives avec ASPO. Globalement, cette étude fournit une explication fondamentale du succès de TIR, en déplaçant l'accent du simple fait que l'outil fonctionne vers la raison et la manière dont il permet des inférences plus puissantes.