본 논문은 강화 학습(RL)을 통해 대규모 언어 모델(LLM)이 외부 도구(Python 코드 실행)를 자발적으로 활용하여 수학 문제 해결 능력을 향상시키는 ZeroTIR(Zero-shot Tool-Integrated Reasoning) 방법론을 제시합니다. 감독된 도구 사용 예시 없이, 결과 기반 보상으로 RL을 적용하여 LLM이 Python 코드를 생성하고 실행하도록 학습시키는 것이 핵심입니다. 실험 결과, RL 훈련 단계 증가에 따라 자발적인 코드 실행 빈도, 응답 길이, 최종 정확도가 모두 증가하는 양의 상관관계를 확인하여 훈련 노력과 효과적인 도구 활용 전략 습득 간의 정량적 관계를 제시합니다. 표준 RL 알고리즘 및 프레임워크를 사용하여 강건한 프레임워크를 구현하고, 기존 방법보다 우수한 성능을 입증합니다.