En este artículo, investigamos el papel del aprendizaje por refuerzo (AR) en la mejora de la capacidad de inferencia de cadenas de pensamiento de los modelos lingüísticos a gran escala (LLM). En primer lugar, demostramos que los patrones de "momento revelador" (reflexión mediante autocorrección) existen incluso antes del entrenamiento en AR en LLM multimodales (MLLM), pero podrían no estar correlacionados con una mejora en el rendimiento de la inferencia. Con base en esto, presentamos un enfoque de dos pasos que combina el ajuste fino del aprendizaje supervisado (SFT) mediante patrones de inferencia de cadenas de pensamiento estructurados y el aprendizaje por refuerzo mediante GRPO. Los resultados experimentales muestran que este enfoque supera a los métodos basados exclusivamente en SFT y AR en diversos parámetros de inferencia multimodal. Se alcanza un rendimiento de vanguardia entre los MLLM de código abierto para los modelos 3B y 7B. En particular, el modelo 7B mejora significativamente el rendimiento con respecto a los modelos de referencia (p. ej., MathVista 66,3 % → 73,4 %, We-Math 62,9 % → 70,4 %). Este estudio proporciona una guía práctica para la creación de modelos avanzados de inferencia multimodal, y el código está disponible públicamente en GitHub.