본 논문은 강화 학습(RL)을 통해 대규모 언어 모델(LLM)이 외부 도구(Python 코드 실행)를 자발적으로 활용하여 수학 문제 해결 능력을 향상시키는 방법을 연구합니다. 감독된 도구 사용 예시 없이, 결과 기반 보상으로부터 강화 학습을 하는 ZeroTIR 프레임워크를 제시하고, 훈련 단계 증가에 따라 자발적인 코드 실행 빈도, 응답 길이, 그리고 최종 정확도가 예측 가능하게 증가함을 보여줍니다. 이는 훈련에 투입된 계산 노력과 효과적인 도구 활용 추론 전략의 출현 사이에 정량적인 관계가 있음을 시사합니다. 실험 결과, ZeroTIR은 기존의 도구를 사용하지 않는 ZeroRL 기준 모델보다 수학 벤치마크에서 성능이 훨씬 뛰어남을 확인하였습니다. 본 연구는 에이전트 RL 내에서 자율적인 도구 사용이 습득되고 확장되는 방식에 대한 기본적인 이해를 제공하며, 향후 연구를 위한 재현 가능한 벤치마크를 제공합니다.