Pour remédier aux inefficacités des modèles linguistiques multimodaux à grande échelle (MLLM) dotés de capacités de réflexion étape par étape qui excellent dans la résolution de problèmes d'inférence complexes, cet article propose R-4B, un MLLM à réflexion autonome qui détermine de manière adaptative s'il faut activer la réflexion en fonction de la complexité du problème. R-4B utilise le recuit bimodal pour intégrer les capacités de réflexion et de non-réflexion, et applique l'optimisation bimodale des politiques (BPO) pour améliorer la précision du modèle dans la détermination de l'activation des processus de réflexion. À l'aide d'un ensemble de données soigneusement organisé couvrant divers sujets, le modèle est entraîné en incluant des échantillons des modes de réflexion et de non-réflexion. Une deuxième étape d'entraînement, dans un cadre GRPO amélioré, force le modèle de politique à générer des réponses dans les deux modes pour chaque requête d'entrée. Les résultats expérimentaux montrent que R-4B atteint des performances de pointe sur 25 benchmarks difficiles, surpassant Qwen2.5-VL-7B sur la plupart des tâches, et atteint des performances comparables à des modèles plus grands tels que Kimi-VL-A3B-Thinking-2506 (16B) sur des benchmarks à forte intensité d'inférence, mais à un coût de calcul inférieur.