본 논문은 의료 분야의 멀티모달 대규모 언어 모델(MLLM)의 적용에 있어 두 가지 주요 과제, 즉 희소한 멀티모달 의료 데이터셋과 의료 분야에서 Reinforcement Learning with Verifiable Rewards (RLVR)의 신뢰성 문제를 해결하고자 한다. 이를 위해, Supervised Fine-tuning (SFT) 단계에서 고품질 텍스트 추론 데이터와 일반 멀티모달 데이터를 멀티모달 의료 데이터와 함께 통합하여 기본 의료 능력을 향상시키고, 모델의 추론 능력을 복원했다. 또한 희소한 정보를 가진 멀티모달 의료 데이터셋을 고려하여, 일반 CoT 샘플 외에 반사 패턴 주입 chain-of-thought (CoT)를 합성하여 초기 반사 추론 능력을 부여했다. 그 결과, InfiMed-SFT-3B와 InfiMed-RL-3B 모델을 개발하여 7개의 멀티모달 의료 벤치마크에서 최고 성능을 달성했으며, InfiMed-RL-3B는 59.2%의 평균 정확도를 기록하여 InternVL3-8B(57.3%)보다 우수한 성능을 보였다.