본 논문은 복잡한 추론 문제 해결에 뛰어난 성능을 보이는 단계별 사고 능력을 갖춘 다중 모드 대규모 언어 모델(MLLM)의 비효율성을 해결하기 위해, 문제의 복잡도에 따라 사고 여부를 적응적으로 결정하는 자동 사고 MLLM인 R-4B를 제안합니다. R-4B는 이중 모드 어닐링을 사용하여 사고 및 비사고 능력을 모두 갖추고, 이중 모드 정책 최적화(BPO)를 적용하여 사고 과정을 활성화할지 여부를 결정하는 모델의 정확도를 향상시킵니다. 다양한 주제를 다루는 신중하게 큐레이션된 데이터셋을 사용하여 사고 모드와 비사고 모드의 샘플을 모두 포함하여 모델을 훈련하고, 향상된 GRPO 프레임워크 하에서 두 번째 훈련 단계를 거쳐 각 입력 쿼리에 대해 두 모드 모두에서 응답을 생성하도록 정책 모델을 강제합니다. 실험 결과, R-4B는 25개의 까다로운 벤치마크에서 최첨단 성능을 달성하며, 대부분의 작업에서 Qwen2.5-VL-7B를 능가하고, 추론 집약적인 벤치마크에서 Kimi-VL-A3B-Thinking-2506 (16B)과 같은 더 큰 모델과 비슷한 성능을 더 낮은 계산 비용으로 달성합니다.