Cet article évalue de manière exhaustive l'efficacité de l'inférence intégrée aux outils (TIR) pour améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM). Pour surmonter les limites des LLM, qui peinent à effectuer des calculs précis avec les méthodes conventionnelles de chaîne de pensée (CoT), nous exploitons TIR et présentons le benchmark ReasonZoo, qui englobe neuf catégories d'inférence différentes. De plus, nous proposons de nouvelles mesures pour évaluer l'efficacité de l'inférence : le coût sensible aux performances (PAC) et l'aire sous la courbe performance-coût (AUC-PCC). Les résultats expérimentaux montrent que les modèles basés sur TIR surpassent les modèles non basés sur TIR, tant pour les tâches mathématiques que non mathématiques. De plus, les mesures PAC et AUC-PCC sont améliorées, démontrant une efficacité d'inférence accrue. Cela suggère que TIR peut améliorer la capacité des LLM à résoudre des tâches d'inférence complexes.