En este artículo, proponemos un novedoso método de aprendizaje por refuerzo, el Pensamiento Modular mediante el Ajuste Fino de Refuerzo (MOTIF), para mejorar la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM). El algoritmo existente de Optimización de Políticas Relativa de Grupo (GRPO) mejora la calidad de la respuesta al aumentar el número de tokens de inferencia, pero está limitado por el tamaño limitado del contexto de los LLM. MOTIF intenta superar la limitación del tamaño del contexto mediante una estrategia de pensamiento modular que genera tokens de inferencia en múltiples rondas. Al entrenar el modelo Qwen2.5-3B-Instruct en el conjunto de datos GSM8K mediante un ajuste fino eficiente de los parámetros, demostramos que mejora la precisión en un 3,8% y un 3,3% en los puntos de referencia MATH500 y AIME2024, respectivamente, en comparación con el aprendizaje basado en GRPO existente, que se logra utilizando solo el 15% de las muestras, lo que demuestra la eficiencia de la muestra. El código y los modelos están disponibles públicamente.