Este artículo evalúa exhaustivamente la efectividad de la Inferencia Integrada en Herramientas (TIR) para mejorar el rendimiento de inferencia de modelos de lenguaje a gran escala (LLM). Para superar las limitaciones de los LLM, que presentan dificultades para el cálculo preciso utilizando métodos convencionales de Cadena de Pensamiento (CoT), aprovechamos TIR y presentamos el benchmark ReasonZoo, que abarca nueve categorías de inferencia diversas. Además, proponemos nuevas métricas para evaluar la eficiencia de la inferencia: Costo Consciente del Rendimiento (PAC) y Área Bajo la Curva Costo-Rendimiento (AUC-PCC). Los resultados experimentales muestran que los modelos basados en TIR superan a los modelos no basados en TIR tanto en tareas matemáticas como no matemáticas. Además, las métricas PAC y AUC-PCC se han mejorado, demostrando una mayor eficiencia de inferencia. Esto sugiere que TIR puede mejorar la capacidad de los LLM para resolver tareas de inferencia complejas.