본 논문은 다양한 작업에서 뛰어난 능력을 보여준 멀티모달 대규모 언어 모델(MLLM)이 모델 크기, 과도한 사고, 경량 환경에서의 정확도 저하 등의 추론 효율성 측면에서 겪는 문제를 해결하고자 한다. 이를 위해, 더 빠른 추론과 높은 정확도를 달성하는 새로운 경량 3B 모델인 Tiny-R1V를 제안한다. Tiny-R1V는 두 단계 최적화를 통해 멀티모달 추론을 통합하고 더 적은 토큰을 사용한다. 첫 번째 단계에서는 Length-Informed Relative Policy Optimization (LIPO)을 도입하여 각 추론 모델을 훈련시키고, 두 번째 단계에서는 Adaptive Model Merging (AMM)을 통해 여러 전문 모델을 통합한다. 실험 결과는 Tiny-R1V가 수학, 구조화된 데이터, OCR, 일반적인 능력 등 10개의 광범위한 추론 벤치마크에서 우수한 성능을 보여주며, 경량 모델이 다양한 멀티모달 추론 작업에서 뛰어난 성능을 낼 수 있음을 입증한다.