Trong bài báo này, chúng tôi trình bày phương pháp luận Zero-shot Tool-Integrated Reasoning (ZeroTIR) sử dụng học tăng cường (RL) để cho phép các mô hình ngôn ngữ quy mô lớn (LLM) tự động sử dụng các công cụ bên ngoài (thực thi mã Python) nhằm nâng cao khả năng giải quyết vấn đề toán học. Điều quan trọng là huấn luyện LLM để tạo và thực thi mã Python bằng cách áp dụng RL với phần thưởng dựa trên kết quả, mà không cần các ví dụ sử dụng công cụ có giám sát. Kết quả thực nghiệm cho thấy tần suất thực thi mã tự động, độ dài phản hồi và độ chính xác cuối cùng đều tăng theo chiều hướng tích cực khi tăng các bước huấn luyện RL, cho thấy mối quan hệ định lượng giữa nỗ lực huấn luyện và việc tiếp thu các chiến lược sử dụng công cụ hiệu quả. Chúng tôi triển khai một khuôn khổ mạnh mẽ sử dụng các thuật toán và khuôn khổ RL tiêu chuẩn, và chứng minh rằng nó vượt trội hơn các phương pháp hiện có.