本論文は、大規模言語モデル(LLM)の推論能力向上のためのツール統合推論(TIR)の効果を総合的に評価した研究である。従来の思考連鎖(CoT)方式では、正確な計算が難しいLLMの限界を克服するためにTIRを活用し、9つの様々な推論カテゴリを含むReasonZooベンチマークを提示した。また、推論効率を評価するための新しい指標であるPerformance-Aware Cost(PAC)とArea Under the Performance-Cost Curve(AUC-PCC)を提案した。実験の結果、TIRベースのモデルは、数学的および非数学的課題の両方でTIRを使用しないモデルよりも優れており、PACおよびAUC-PCC指標も改善されて推論効率が向上することが確認された。これは、TIRがLLMの複雑な推論課題解決能力の向上に役立つことを示唆している。