Para abordar las ineficiencias de los modelos de lenguaje multimodales a gran escala (MLLM) con capacidades de pensamiento paso a paso que destacan en la resolución de problemas de inferencia complejos, este artículo propone R-4B, un MLLM de pensamiento autónomo que determina adaptativamente si se activa el pensamiento en función de la complejidad del problema. R-4B utiliza recocido bimodal para incorporar capacidades de pensamiento y no pensamiento, y aplica optimización de políticas bimodales (BPO) para mejorar la precisión del modelo a la hora de determinar si se activan los procesos de pensamiento. Utilizando un conjunto de datos cuidadosamente seleccionado que abarca diversos temas, el modelo se entrena incluyendo muestras de modos de pensamiento y no pensamiento. Un segundo paso de entrenamiento, bajo un marco GRPO mejorado, obliga al modelo de políticas a generar respuestas en ambos modos para cada consulta de entrada. Los resultados experimentales muestran que R-4B logra un rendimiento de última generación en 25 puntos de referencia desafiantes, superando a Qwen2.5-VL-7B en la mayoría de las tareas, y logra un rendimiento comparable a modelos más grandes como Kimi-VL-A3B-Thinking-2506 (16B) en puntos de referencia de inferencia intensiva, pero a un costo computacional menor.