본 논문은 강화학습으로 훈련된 추론 모델(예: DeepSeek R1)이 언어적 추론에는 뛰어나지만, 기하학적 추론, 간결한 계산 또는 복잡한 방정식 풀이와 같이 구조적 문제 해결이 필요한 상황에서는 어려움을 겪는다는 점을 지적합니다. 이러한 한계를 극복하기 위해, 본 논문에서는 코드 인터프리터(CI)와 같은 계산 도구를 통합하여 장문 추론을 향상시키는 ReTool을 제안합니다. ReTool은 자연어 추론 과정 내에 실시간 코드 실행을 동적으로 삽입하고, 다회차 실시간 코드 실행을 포함하는 정책 롤아웃을 허용하고 결과 피드백에 기반하여 도구 호출 시점과 방법을 학습시키는 자동화된 강화학습 패러다임을 사용합니다. 합성 콜드스타트 데이터 생성으로 시작하여 기본 모델을 미세 조정하기 위한 코드가 추가된 장문 추론 추적을 생성하는 체계적인 훈련 프레임워크를 사용합니다. 그 후 강화학습 훈련은 작업 결과를 보상으로 활용하여 모델의 도구 사용 전략을 반복적으로 개선하여 인간의 사전 지식 없이 최적의 도구 호출 패턴을 자율적으로 발견할 수 있도록 합니다. AIME 벤치마크에서 ReTool의 우수성을 입증하며, ReTool-32B 모델은 400번의 훈련 단계로 67%의 정확도를 달성하여 텍스트 기반 강화학습 기준 모델(40%, 1080 단계)보다 효율성과 성능이 뛰어납니다. 확장된 환경에서는 72.5%의 정확도를 달성하여 OpenAI의 o1-preview를 27.9% 상회합니다. 코드 자가 수정과 같은 새로운 동작이 나타나며, 모델이 적응적 도구 사용을 자율적으로 습득하는 "아하 모멘트"를 시사합니다. 이러한 결과는 복잡한 수학적 추론을 발전시키기 위한 결과 중심 도구 통합의 가능성을 강조하고 하이브리드 신경 기호 시스템에 대한 새로운 통찰력을 제공합니다.