En este artículo, presentamos una metodología de razonamiento integrado con herramientas de cero disparos (ZeroTIR) que utiliza aprendizaje por refuerzo (AR) para permitir que los modelos de lenguaje a gran escala (LLM) utilicen espontáneamente herramientas externas (ejecución de código Python) y mejoren su capacidad para resolver problemas matemáticos. La clave reside en entrenar al LLM para que genere y ejecute código Python mediante la aplicación de AR con recompensas basadas en resultados, sin ejemplos supervisados de uso de herramientas. Los resultados experimentales muestran que la frecuencia de ejecución espontánea de código, la longitud de la respuesta y la precisión final aumentan positivamente con el aumento de los pasos de entrenamiento de AR, lo que sugiere una relación cuantitativa entre el esfuerzo de entrenamiento y la adquisición de estrategias efectivas de utilización de herramientas. Implementamos un marco robusto utilizando algoritmos y marcos de AR estándar, y demostramos que supera a los métodos existentes.