본 논문은 대규모 언어 모델(LLM)이 정확한 계산, 기호 조작, 최적화 및 알고리즘 추론을 요구하는 작업에서 어려움을 겪는다는 점을 지적하며, 텍스트 추론과 코드 생성 중 어떤 것을 사용할지 결정하는 것이 중요한 과제임을 강조합니다. 연구진은 텍스트 전용 LLM을 확장하여 여러 번의 코드 쿼리를 자율적으로 생성하는 R1-Code-Interpreter를 제시합니다. 144개의 추론 및 계획 작업(훈련용 107개, 테스트용 37개)을 사용하여 Qwen-2.5 모델(3B/7B/14B)을 다양한 SFT 및 RL 전략을 사용하여 미세 조정했습니다. 다양한 답변 형식, 추론 여부, 콜드/웜 시작, GRPO/PPO, 마스크된/마스크되지 않은 코드 출력 등을 조사했습니다. 다양한 작업으로 인해 코드 인터프리터 훈련이 상당히 어렵다는 것을 발견하였으며, SFT 단계의 중요성을 강조합니다. 최종 모델인 R1-CI-14B는 37개 테스트 작업에서 평균 정확도를 44.0%에서 64.1%로 향상시켜 GPT-4o(텍스트 전용: 58.6%)를 능가하고 GPT-4o with Code Interpreter(70.9%)에 근접했습니다. 데이터셋, 코드 및 모델은 공개적으로 제공됩니다.