Este artículo explora por qué la Inferencia Integrada con Herramientas (TIR) mejora el rendimiento de los modelos de lenguaje a gran escala (LLM). Si bien los LLM integrados con herramientas como los intérpretes de código Python son muy prometedores, se carece de una teoría sólida que explique la efectividad de este paradigma. Este estudio es el primero en demostrar formalmente que la TIR amplía significativamente las capacidades de los LLM. Al ampliar rigurosamente el soporte empírico y factible del modelo, la herramienta supera las limitaciones de rendimiento de los modelos puramente textuales al permitir estrategias de resolución de problemas que de otro modo serían imposibles o extremadamente tediosas. Para guiar el comportamiento del modelo sin comprometer la estabilidad ni el rendimiento del aprendizaje, este artículo presenta la Optimización de Políticas de Modelado de Ventajas (ASPO), un novedoso algoritmo que modifica directamente la función de ventaja para guiar las acciones de política. Realizamos experimentos exhaustivos sobre parámetros matemáticos desafiantes utilizando el intérprete de Python como herramienta externa. Nuestros experimentos demuestran que el modelo TIR supera claramente al modelo puramente textual en términos de pass@k. Es importante destacar que esta ventaja se extiende más allá de los problemas computacionalmente intensivos a problemas que requieren un conocimiento abstracto significativo. También identificamos nuevos patrones cognitivos que demuestran cómo el modelo utiliza herramientas para pensar. Finalmente, reportamos una mejora en el uso de herramientas mediante la invocación inicial de código y turnos significativamente más interactivos con ASPO. En general, este estudio proporciona una explicación de primer principio para el éxito de TIR, cambiando el enfoque del simple hecho de que la herramienta funciona a por qué y cómo permite inferencias más potentes.