본 논문은 언어 모델(LM)을 이용한 수학 문제 해결의 최근 발전에 대해 다룹니다. 특히, 사고 과정(CoT) 추론과 코드 실행을 통합하여 상호 보완적인 강점을 활용하는 방법에 초점을 맞춥니다. 기존의 하이브리드 프레임워크는 외부에서 지시하는 명령이나 엄격한 코드 통합 템플릿에 의존하는 한계를 지니는데, 이는 메타인지적 인식, 즉 내재적 능력을 동적으로 평가하고 도구를 언제 어떻게 통합할지 자율적으로 결정하는 능력이 부족하기 때문입니다. 이러한 한계를 극복하기 위해 본 논문은 모델이 훈련 중 추론 능력이 발전함에 따라 도구 사용 전략을 적응할 수 있도록 하는 자율적인 코드 통합을 연구합니다. 강화 학습(RL)은 대규모 LLM 추론 향상에 유망하지만, CoT-코드 삽입 패턴의 방대한 조합 공간을 충분히 탐색하지 못하기 때문에 자율적인 코드 통합 학습에는 비효율적임을 보여줍니다. 이 문제를 해결하기 위해, 본 논문은 구조화된 탐색(E-step)과 오프-정책 RL 최적화(M-step)를 통합하는 새로운 기대-최대화(EM) 프레임워크를 제안합니다. 이는 메타인지적 도구 사용 결정과 발전하는 능력 사이의 자기 강화 순환을 만듭니다. 실험 결과, 제안된 방법은 향상된 탐색을 통해 우수한 결과를 달성함을 보여줍니다. 특히, 7B 모델은 o1과 같은 CoT 없이 MATH500에서 11% 이상, AIME에서 9.4% 향상되었습니다.