Este artículo se centra en los avances recientes en la resolución de problemas matemáticos mediante modelos de lenguaje (LM). En particular, señalamos las limitaciones de los marcos híbridos que integran la inferencia de CoT y la ejecución de código para aprovechar las fortalezas de cada uno. Abordamos el problema de que los marcos existentes se basan en instrucciones externas o plantillas fijas de integración de código y carecen de conciencia metacognitiva, es decir, la capacidad de evaluar dinámicamente las capacidades intrínsecas y decidir de forma autónoma cuándo y cómo integrar herramientas. Para abordar estas limitaciones, estudiamos la integración autónoma de código, que permite a los modelos adaptar sus estrategias de uso de herramientas a medida que sus capacidades de inferencia evolucionan durante el aprendizaje. Abordamos los problemas de eficiencia del aprendizaje por refuerzo (RL) y proponemos un nuevo marco de maximización de expectativas (EM) que combina la exploración estructurada (E-step) y la optimización de RL fuera de política (M-step). Este marco crea un ciclo de refuerzo mutuo entre las decisiones de uso de herramientas metacognitivas y la evolución de las capacidades. Los resultados experimentales muestran que el método propuesto logra resultados superiores mediante una exploración mejorada. En particular, el modelo 7B mostró un rendimiento mejorado de más del 11% en MATH500 y del 9,4% en AIME sin CoT tipo o1.